科大訊飛副總裁江濤:語音技術(shù)的三大種類
2011/10/14
引言:蘋果iPhone 4S的Siri功能推出,可謂是引起了人們對于智能語音技術(shù)的極大關(guān)注。其實,語音技術(shù)非常復(fù)雜,表象繁多,本刊通過采訪國內(nèi)科大訊飛、國筆等專家對目前的語音市場進行梳理和探討。
一、不僅僅是語音,還是人工智能
盡管蘋果“教主”喬布斯離開了我們,盡管iPhone 5沒有入人們期望的那樣出現(xiàn),但是iPhone 4S的推出仍然成功吸引了蘋果粉絲和業(yè)界的所有關(guān)注。根據(jù)美國電話電報公司(AT&T)透露,iPhone 4S在發(fā)布12小時之內(nèi)就接到了20萬份訂單,而其中最引入注目的一大新功能,就是被稱為Siri的語音助手功能。
10月4日上午,蘋果全球產(chǎn)品副總裁Phil Schiller與負責(zé)iOS軟件的副總裁Scott Forstall在新品發(fā)布會上,隆重介紹了Siri。
什么是Siri?
Forstall在現(xiàn)場進行了演示,他拿起iPhone 4S,對手機問道:“今天天氣如何?”屏幕上立刻顯示出今天的天氣狀況。他又接著問,我用帶傘嗎?Siri馬上回答,今天會下雨。隨后,他還用這款應(yīng)用演示了搜索和設(shè)置鬧鐘提、預(yù)約等功能。
Siri跟普通的語音搜索不一樣,它能明白你所說的,了解你的意思,甚至還能回答你的問題。那感覺就像真正擁有私人助理似的,而且是一位善解人意的私人助理。無論你用何種方式提問,它都能以人的思維去思考和反應(yīng),而不是以預(yù)設(shè)的程序答非所問。
Siri能為你做的不僅僅是提供答案,它還可以親自替你完成一些基本的事情。比如,你可以吩咐Siri發(fā)短信給你父親、提醒你預(yù)約牙醫(yī)、幫你查找到達目的地的路線,不用擔(dān)心Siri不夠聰明,因為它能夠思考完成這些事情需要運行哪些應(yīng)用程序,還能明白你要打電話的準確對象。
Siri還包括傳聞中的“語音轉(zhuǎn)文字”的功能,你只需按下麥克風(fēng),把你想發(fā)送的內(nèi)容說出來,Siri就可以將你所說的內(nèi)容轉(zhuǎn)換成文字,并發(fā)送出去。除了發(fā)送短信外,Siri還集成到一些第三方應(yīng)用,這樣,你只需動動嘴皮子,就能更新Facebook、發(fā)送Twitter消息或者即時聊天。
如果你認為Siri只是一個簡單的聲音控制軟件,而你的Android手機上的語音助手或NOKIA語音提示也可做到這點,那你就錯了。
我們不妨探究一下Siri的血統(tǒng),這家最近剛被蘋果收購的公司,直接發(fā)端于美國軍方的CALO(Cognitive Assistant that Learns and Organizes)項目,這也是史上最大的人工智能項目,匯聚了全球人工智能方面的頂尖專家。
你如果看過好萊塢大導(dǎo)演斯皮爾伯格的電影《A I》,相信會對人工智能有一定了解,通過人工智能技術(shù),機器人可以把“對話、自然語言理解、視覺、演說、機器學(xué)習(xí)、制定計劃、理性思考、服務(wù)代表全部融合到一起”。Siri的技術(shù)正源自人工智能,而不是簡單的搜索和語音識別。它能夠自主分析用戶發(fā)出的口語指令,并給出確切的回應(yīng)和指導(dǎo),完全不需要用戶預(yù)選學(xué)習(xí)使用方法。
在國外某科技博客錄制的一段視頻中,評測人員對Siri提出了許多含義模糊或有歧義的問題。比如:“附近有沒有什么浪漫的法國餐廳?”,比如:“天空為何是藍色的?”比如“鋼琴上有多少個八度?”對人類而言,這些句子再平常不過了,但要讓機器去理解這些變化多端的棘手詞匯,尤其是“浪漫”這種形容詞,那就極端困難了,然而這些問題Siri都可以回答。
你甚至還可以對Siri表白,對它說:“我愛你!”它的回答也很妙:“希望你不會對其它手機也這么說。”
該評測人員隨后在博客中寫到:“Android系統(tǒng)的Voice Actions也是一項偉大的技術(shù),但說真的,它和Siri不是同一個層面的產(chǎn)品。Siri非?幔c之相比Voice Actions雖說確實讓我們省去了打字輸入、觸摸操作的工序,但操作太復(fù)雜,只有那些Geek會使用它。然而,媽媽們會選擇Siri!
二、語音技術(shù)的三大種類
除了人工智能,Siri的核心功能仍是基于語音識別的語音技術(shù),其語音引擎來自Nuance,這家公司在全球手機輸入法上處于壟斷地位。
這一技術(shù)并非革 命性的變革,早在計算機發(fā)明之前,自動語音識別的設(shè)想就已經(jīng)被提上了議事日程,早期的聲碼器可被視作語音識別及合成的雛形。而1920年代生產(chǎn)的“Radio Rex”玩具狗可能是最早的語音識別器,當(dāng)這只狗的名字被呼喚的時候,它能夠從底座上彈出來。
近二十年來,語音識別技術(shù)取得顯著進步,開始逐漸從實驗室走向市場。據(jù)了解,許多大公司如IBM、蘋果、微軟、Google、AT&T和NTT等早在多年前都對語音識別系統(tǒng)的實用化研究投以巨資。目前主流的語音技術(shù)方案包括IBM公司推出的Via Voice和Dragon System公司的Naturally Speaking, ,Nuance公司的Nuance Voice Platform語音平臺,Microsoft的Whisper,Sun的VoiceTone,以及科大訊飛的口訊等。
“語音技術(shù)是一個典型的交叉科學(xué),涉及到很多方面,不是說有錢就能做的,是有一定門檻的。你可以去APP下載一個我們的軟件體驗一下”。根據(jù)科大訊飛副總江濤對電子工程專輯記者的介紹,目前語音技術(shù)大體上有三個分支:
第一類是語音合成技術(shù)(TTS),就是把文字變成語音,能夠把文字讀出來的技術(shù),這個技術(shù)相對來說發(fā)展最早,也比較成熟。
第二類是語音識別技術(shù)(ASR),它又有幾個細分,比較技術(shù)成熟的有命令識別(voice command),在有限的指定空間中實現(xiàn)你說的命令,早期很多手機上的語音識別很多就是這個層面。還有一個分支是語音評測,能夠?qū)δ阏f的不同語言的標準程度進行打分、評價與指導(dǎo)。
第三類是聲紋識別技術(shù),因為語言中人的聲帶帶有獨特的物理特性,跟指紋、虹膜一樣每個人的聲音都是獨特的,目前這種技術(shù)主要用在聲音加密方面,可以識別不同人的聲音。
據(jù)江濤對電子工程專輯記者透露,目前最難實現(xiàn)的就是語音識別技術(shù)(ASR),盡管業(yè)內(nèi)普遍以識別率作為軟件評測的標準,但語音受影響的環(huán)境因素太多了,說話人的語氣、語速、外圍的噪音程度,麥克風(fēng)的情況,尤其是云端識別,傳輸?shù)男诺篮脡,很多很多因素都是不可控制的,“所以讓官方去測一個系統(tǒng)識別率是多少其實意義不大,因為每個人用的具體環(huán)境都不大一樣。最終做決定的還是消費者,他們會用自己的手機去投票”。
三、語音技術(shù)面臨的諸多挑戰(zhàn)
據(jù)江濤介紹,目前語音識別技術(shù)在實現(xiàn)上還有幾大難點需要解決:
1、自適應(yīng)方面
目前,象IBM的ViaVoice和Asiaworks的SPK都需要用戶在使用前進行幾百句話的訓(xùn)練,以讓計算機適應(yīng)你的聲音特征。這必然限制了語音識別技術(shù)的進一步應(yīng)用,大量的訓(xùn)練不僅讓用戶感到厭煩,而且加大了系統(tǒng)的負擔(dān),F(xiàn)實世界的用戶類型是多種多樣的,就聲音特征來講有男音、女音和童音的區(qū)別,此外,許多人的發(fā)音離標準發(fā)音差距甚遠,這就涉及到對口音或方言的處理。事實上,ViaVoice的應(yīng)用前景也因為這一點打了折扣,只有普通話說得很好的用戶才可以在其中文版連續(xù)語音識別方面取得相對滿意的成績。
2、強健性方面
語音識別技術(shù)需要能排除各種環(huán)境因素的影響。目前,對語音識別效果影響最大的就是環(huán)境雜音或嗓音,在公共場合,你幾乎不可能指望手機能聽懂你的話,來自四面八方的聲音讓它茫然而不知所措。很顯然這極大地限制了語音技術(shù)的應(yīng)用范圍,目前,要在嘈雜環(huán)境中使用語音識別技術(shù)必須有特殊的抗噪(Noise Cancellation)麥克風(fēng)才能進行,這對多數(shù)用戶來說是不現(xiàn)實的。在公共場合中,個人能有意識地摒棄環(huán)境嗓音并從中獲取自己所需要的特定聲音,如何讓語音識別技術(shù)也能達成這一點呢?這的確是一個艱巨的任務(wù)。
某位業(yè)內(nèi)人士在微博上表示:“與iPhone 4一樣,iPhone 4S也配有副麥克風(fēng),用來過濾背景雜音。使用過Nuance Dragon語音到文本產(chǎn)品的用戶無疑會對這種情形非常熟悉:在語音輸入時必須保證良好的音質(zhì)并且減少雜音,即便這樣語音輸入結(jié)果也并非100%準確;诖,我們認為iPad和iPod touch上的低音質(zhì)麥克風(fēng)無法讓語音輸入獲得最佳效果,從而無法在短時間內(nèi)用上Siri!
此外,帶寬問題也可能影響語音的有效傳送,語音技術(shù)的流量要求主要看語音的質(zhì)量,越保真的語音傳輸量越大,現(xiàn)在主流的語音技術(shù)采用的都是16bit編碼和8bit編碼兩種。在速率低于1000比特/秒的極低比特率下,語音編碼的研究將大大有別于正常情況,比如要在某些帶寬特別窄的信道上傳輸語音,以及水聲通信、地下通信、戰(zhàn)略及保密話音通信等,要在這些情況下實現(xiàn)有效的語音識別,就必須處理聲音信號的特殊特征,如因為帶寬而延遲或減損等。
3、多語言混合識別以及無限詞匯識別方面
由于目前使用的聲學(xué)模型和語音模型太過于局限,以至用戶只能使用特定語音進行特定詞匯的識別。如果突然從中文轉(zhuǎn)為英文,或者法文、俄文,計算機就會不知如何反應(yīng),而給出一堆不知所云的句子;或者用戶偶爾使用了某個專門領(lǐng)域的專業(yè)術(shù)語,如 “信噪比"等,可能也會得到奇怪的反應(yīng)。根據(jù)筆者的使用體驗,中文與英文夾雜,包括數(shù)字的夾雜識別會比較困難。
目前正在做語音方面的開發(fā),還不方便公布。
云計算在安全和識別方面,凡是涉及到云端的,都要在服務(wù)器上實現(xiàn),就以打電話、發(fā)短信來說,其實運營商那里都有備份,本身有沒有安全問題,其實只要管理規(guī)范,并且控制在幾家大公司范圍內(nèi),我相信不會太亂。電子郵件做了這么多年,安全性問題也有,但是不能因為這樣就不用。
4、實用性方面
國外科技博主Michael Okuda對Siri的實用性抱懷疑態(tài)度!斑@只是一個DEMO,目前來看根本談不上革 命。Siri無法進行大段文字錄入和現(xiàn)場翻譯的語音識別,而且限定了必須在App內(nèi)的特定識別,總覺得又是個蘋果拋磚引玉教育用戶的動作。”
他認為,語音輸入可能并非如此高效!霸O(shè)想一下,我在搜索圖片,我會說‘上、上、左、往下一個,圖片編號3362,不對,左邊那個。’這簡直比直接點擊那張圖片要慢很多。”Michael說。“我認為,自然語言必然會遇到諸多限制!
四、云平臺加速中文語音識別的來臨
Siri的推出吸引了業(yè)內(nèi)對于語音識別技術(shù)的關(guān)注,據(jù)了解,此次Siri僅推出了英文、法文、德文版本,并且只能在iPhone 4S上面使用,這無疑對于專注中文語音技術(shù)的國內(nèi)廠商帶來巨大利好。不過由于Siri并非單純語音識別,而更是語義識別,即理解自然語言并作出合理回應(yīng)。中文自然語言的語義識別是Siri面對的難點與障礙。蘋果本身十分注重中國市場,從iPhone 第一代的iPhone OS在發(fā)布之時就已包含中文語言及輸入法即可看出。
事實上,早在1997年,IBM公司就開發(fā)出漢語ViaVoice語音識別系統(tǒng),可以識別上海話、廣東話和四川話等地方口音的語音識別系統(tǒng)ViaVoice'98。它帶有一個32,000詞的基本詞匯表,可以擴展到65,000詞,還包括辦公常用詞條,具有“糾錯機制”,其平均識別率可以達到95%。而中科院自動化所及其所屬模式科技(Pattek)公司2002年發(fā)布了他們共同推出的面向不同計算平臺和應(yīng)用的“天語”中文語音系列產(chǎn)品——PattekASR,結(jié)束了中文語音識別產(chǎn)品自1998年以來一直由國外公司壟斷的歷史。
你可能還記得幾年前電視上出現(xiàn)過的“金立語音王”廣告,該款手機可以通過語音收發(fā)短信,同時還可以通過語音閱讀文檔資料,可以說是國內(nèi)手機廠商在語音識別上的最早嘗試。
國筆科技副總裁莊傳坤對電子工 程專輯記 者表示,類似于金立語音王這種產(chǎn)品就屬于命令識別技術(shù),事先設(shè)定一些命令,或者命令組合,早期的金立語音王基本上就是在手機CPU上進行處理,運算速度和存儲空間有限,只能識別有限的一千多條指令,體驗也不好?拼笥嶏w副總江濤則透露,今年金立基于科大訊飛的語音云做了一個新的版本,在云服務(wù)器上可以做到幾十萬條的識別。
據(jù)了解,目前國內(nèi)客戶對于語音技術(shù)的了解還處于起步階段,市面上完整成熟的中文語音解決方案還不多?拼笥嶏w董秘徐景明就對電子工 程專 輯記者表示,蘋果推廣Siri將從實際應(yīng)用等方面加速行業(yè)發(fā)展與普及。
根據(jù)徐景明的介紹,科大訊飛目前通過兩種方式來培育語音識別業(yè)務(wù),一是開發(fā)自身的產(chǎn)品訊飛口訊和訊飛語音輸入法,發(fā)展語音云、豐富數(shù)據(jù)庫,公司語音輸入法目前對標準普通話的識別正確率已提升到95%以上;二是向應(yīng)用軟件開發(fā)商們開放語音云平臺接入,目前包括挖財在內(nèi)的理財記賬軟件、凱立德在內(nèi)的地圖軟件,都已內(nèi)置了科大訊飛的語音識別功能。此外,公司還與中國電信合作推出了應(yīng)用相關(guān)技術(shù)的通訊增強軟件。
自2010年10月28日科大訊飛“語音云”成功發(fā)布之日起,訊飛語音云合作伙伴已經(jīng)超過500家,包括新浪、搜狐、騰訊、聯(lián)想、挖財、樂么樂么等,語音云的用戶量也已經(jīng)超過2000萬,而除了科大訊飛,Nuance也在同樣搭建開放的語音云平臺,開發(fā)者可以給予其語音引擎開發(fā)各種第三方的語音應(yīng)用。
至于Siri所應(yīng)用的人工智能方面,國內(nèi)廠商中目前騰訊聯(lián)合中科院推出的小Q機器人是一大嘗試,可以實現(xiàn)部分思考和理解能力,相信隨著iPhone 4s的大力推動和智能手機的進一步發(fā)展,中國廠商自行研發(fā)的具有人工智能的語音軟件將會很快問世。
電子工程專輯
蘋果新品力推語音識別科大訊飛收獲利好 2011-10-11 |
訊飛語音閃耀2011年度中國國際呼叫中心管理大會 2011-10-08 |
科大訊飛:現(xiàn)在的新興應(yīng)用爆發(fā)+未來的想象力 2011-10-08 |
“語音及語言信息處理國家工程實驗室”正式揭牌 2011-09-28 |
訊飛聯(lián)合凱立德共同推出移動導(dǎo)航系統(tǒng)V7.0語音版 2011-09-20 |