引言:蘋(píng)果iPhone 4S的Siri功能推出,可謂是引起了人們對(duì)于智能語(yǔ)音技術(shù)的極大關(guān)注。其實(shí),語(yǔ)音技術(shù)非常復(fù)雜,表象繁多,本刊通過(guò)采訪國(guó)內(nèi)科大訊飛、國(guó)筆等專家對(duì)目前的語(yǔ)音市場(chǎng)進(jìn)行梳理和探討。
一、不僅僅是語(yǔ)音,還是人工智能
盡管蘋(píng)果“教主”喬布斯離開(kāi)了我們,盡管iPhone 5沒(méi)有入人們期望的那樣出現(xiàn),但是iPhone 4S的推出仍然成功吸引了蘋(píng)果粉絲和業(yè)界的所有關(guān)注。根據(jù)美國(guó)電話電報(bào)公司(AT&T)透露,iPhone 4S在發(fā)布12小時(shí)之內(nèi)就接到了20萬(wàn)份訂單,而其中最引入注目的一大新功能,就是被稱為Siri的語(yǔ)音助手功能。
10月4日上午,蘋(píng)果全球產(chǎn)品副總裁Phil Schiller與負(fù)責(zé)iOS軟件的副總裁Scott Forstall在新品發(fā)布會(huì)上,隆重介紹了Siri。
什么是Siri?
Forstall在現(xiàn)場(chǎng)進(jìn)行了演示,他拿起iPhone 4S,對(duì)手機(jī)問(wèn)道:“今天天氣如何?”屏幕上立刻顯示出今天的天氣狀況。他又接著問(wèn),我用帶傘嗎?Siri馬上回答,今天會(huì)下雨。隨后,他還用這款應(yīng)用演示了搜索和設(shè)置鬧鐘提、預(yù)約等功能。
Siri跟普通的語(yǔ)音搜索不一樣,它能明白你所說(shuō)的,了解你的意思,甚至還能回答你的問(wèn)題。那感覺(jué)就像真正擁有私人助理似的,而且是一位善解人意的私人助理。無(wú)論你用何種方式提問(wèn),它都能以人的思維去思考和反應(yīng),而不是以預(yù)設(shè)的程序答非所問(wèn)。
Siri能為你做的不僅僅是提供答案,它還可以親自替你完成一些基本的事情。比如,你可以吩咐Siri發(fā)短信給你父親、提醒你預(yù)約牙醫(yī)、幫你查找到達(dá)目的地的路線,不用擔(dān)心Siri不夠聰明,因?yàn)樗軌蛩伎纪瓿蛇@些事情需要運(yùn)行哪些應(yīng)用程序,還能明白你要打電話的準(zhǔn)確對(duì)象。
Siri還包括傳聞中的“語(yǔ)音轉(zhuǎn)文字”的功能,你只需按下麥克風(fēng),把你想發(fā)送的內(nèi)容說(shuō)出來(lái),Siri就可以將你所說(shuō)的內(nèi)容轉(zhuǎn)換成文字,并發(fā)送出去。除了發(fā)送短信外,Siri還集成到一些第三方應(yīng)用,這樣,你只需動(dòng)動(dòng)嘴皮子,就能更新Facebook、發(fā)送Twitter消息或者即時(shí)聊天。
如果你認(rèn)為Siri只是一個(gè)簡(jiǎn)單的聲音控制軟件,而你的Android手機(jī)上的語(yǔ)音助手或NOKIA語(yǔ)音提示也可做到這點(diǎn),那你就錯(cuò)了。
我們不妨探究一下Siri的血統(tǒng),這家最近剛被蘋(píng)果收購(gòu)的公司,直接發(fā)端于美國(guó)軍方的CALO(Cognitive Assistant that Learns and Organizes)項(xiàng)目,這也是史上最大的人工智能項(xiàng)目,匯聚了全球人工智能方面的頂尖專家。
你如果看過(guò)好萊塢大導(dǎo)演斯皮爾伯格的電影《A I》,相信會(huì)對(duì)人工智能有一定了解,通過(guò)人工智能技術(shù),機(jī)器人可以把“對(duì)話、自然語(yǔ)言理解、視覺(jué)、演說(shuō)、機(jī)器學(xué)習(xí)、制定計(jì)劃、理性思考、服務(wù)代表全部融合到一起”。Siri的技術(shù)正源自人工智能,而不是簡(jiǎn)單的搜索和語(yǔ)音識(shí)別。它能夠自主分析用戶發(fā)出的口語(yǔ)指令,并給出確切的回應(yīng)和指導(dǎo),完全不需要用戶預(yù)選學(xué)習(xí)使用方法。
在國(guó)外某科技博客錄制的一段視頻中,評(píng)測(cè)人員對(duì)Siri提出了許多含義模糊或有歧義的問(wèn)題。比如:“附近有沒(méi)有什么浪漫的法國(guó)餐廳?”,比如:“天空為何是藍(lán)色的?”比如“鋼琴上有多少個(gè)八度?”對(duì)人類而言,這些句子再平常不過(guò)了,但要讓機(jī)器去理解這些變化多端的棘手詞匯,尤其是“浪漫”這種形容詞,那就極端困難了,然而這些問(wèn)題Siri都可以回答。
你甚至還可以對(duì)Siri表白,對(duì)它說(shuō):“我愛(ài)你!”它的回答也很妙:“希望你不會(huì)對(duì)其它手機(jī)也這么說(shuō)!
該評(píng)測(cè)人員隨后在博客中寫(xiě)到:“Android系統(tǒng)的Voice Actions也是一項(xiàng)偉大的技術(shù),但說(shuō)真的,它和Siri不是同一個(gè)層面的產(chǎn)品。Siri非?幔c之相比Voice Actions雖說(shuō)確實(shí)讓我們省去了打字輸入、觸摸操作的工序,但操作太復(fù)雜,只有那些Geek會(huì)使用它。然而,媽媽們會(huì)選擇Siri!
二、語(yǔ)音技術(shù)的三大種類
除了人工智能,Siri的核心功能仍是基于語(yǔ)音識(shí)別的語(yǔ)音技術(shù),其語(yǔ)音引擎來(lái)自Nuance,這家公司在全球手機(jī)輸入法上處于壟斷地位。
這一技術(shù)并非革 命性的變革,早在計(jì)算機(jī)發(fā)明之前,自動(dòng)語(yǔ)音識(shí)別的設(shè)想就已經(jīng)被提上了議事日程,早期的聲碼器可被視作語(yǔ)音識(shí)別及合成的雛形。而1920年代生產(chǎn)的“Radio Rex”玩具狗可能是最早的語(yǔ)音識(shí)別器,當(dāng)這只狗的名字被呼喚的時(shí)候,它能夠從底座上彈出來(lái)。
近二十年來(lái),語(yǔ)音識(shí)別技術(shù)取得顯著進(jìn)步,開(kāi)始逐漸從實(shí)驗(yàn)室走向市場(chǎng)。據(jù)了解,許多大公司如IBM、蘋(píng)果、微軟、Google、AT&T和NTT等早在多年前都對(duì)語(yǔ)音識(shí)別系統(tǒng)的實(shí)用化研究投以巨資。目前主流的語(yǔ)音技術(shù)方案包括IBM公司推出的Via Voice和Dragon System公司的Naturally Speaking, ,Nuance公司的Nuance Voice Platform語(yǔ)音平臺(tái),Microsoft的Whisper,Sun的VoiceTone,以及科大訊飛的口訊等。
電子工程專輯