劉喜喜 2008/03/17
當(dāng)“語音識別(ASR)五年內(nèi)將取代鍵盤”被比爾·蓋茨在多個(gè)場合再三強(qiáng)調(diào),語音識別勢必成為業(yè)界關(guān)注的焦點(diǎn)。但語音識別何時(shí)才能走近消費(fèi)者?科學(xué)家正在攻克什么難關(guān)?語音識別真會取代鼠標(biāo)和鍵盤嗎?從孤立詞到大詞匯量連續(xù)語音的識別(LVCSR),再到語音庫檢索,語音識別技術(shù)一直在向前發(fā)展,只是語音識別似乎離我們還有些遙遠(yuǎn)!敖窈5年內(nèi),互聯(lián)網(wǎng)搜索將更多地通過語音來完成!2月23日,比爾·蓋茨在美國卡內(nèi)基-梅隆大學(xué)發(fā)表演講說道, 這已數(shù)不清是他第幾次在公開場合提及語音識別了。
語音識別將會取代鼠標(biāo)和鍵盤嗎?面對記者拋出的問題,幾乎所有被訪問者都有一個(gè)共識:語音識別將會給用戶提供多一種的輸入方式,但現(xiàn)階段不可能完全替代鼠標(biāo)和鍵盤。不過談及語音識別進(jìn)展為何比較慢時(shí),各路專家卻是見仁見智:標(biāo)準(zhǔn)的差別、噪聲的困擾、嵌入式芯片計(jì)算量的脫節(jié)、產(chǎn)品化的難題一一被擺到臺面上來。
標(biāo)準(zhǔn)輸入的難題
不要小看鼠標(biāo)和鍵盤,雖貌似技術(shù)含量低,但它所具備的統(tǒng)一的輸入標(biāo)準(zhǔn)和精準(zhǔn)的視覺反饋這兩點(diǎn),正是語音識別技術(shù)目前的短板。
當(dāng)南方人把“牛奶”念成“留來”的時(shí)候,究竟是機(jī)器識別錯了,還是人錯了?微軟中國研發(fā)集團(tuán)下屬微軟亞洲研究院語音識別組組長宋言哥平提出這樣一個(gè)問題。不要小看這個(gè)問題,語言輸入不標(biāo)準(zhǔn)從而導(dǎo)致識別錯誤率高過鍵盤,是語音識別無法取代鼠標(biāo)鍵盤的首要原因。
事實(shí)上,不僅是南北口音差異,每個(gè)人都有獨(dú)有的發(fā)音習(xí)慣。因此在Vista中,每個(gè)用戶在用語音控制電腦前,都需要以自己的語音,對電腦進(jìn)行適應(yīng)訓(xùn)練,使其習(xí)慣自己的發(fā)音,識別出正確的指令。在2006年的一次公開示范中,Vista語音識別系統(tǒng)認(rèn)“Mom”為“Aunt”,并100%誤讀了演示員工的意思,使業(yè)界嘩然。對這個(gè)“認(rèn)母為姨”的錯誤,宋言哥平做出這樣的解釋:“演示組里每個(gè)員工都有自己的適應(yīng)模型,正是演示人員張三慌忙中誤使用了李四的身份和模型,才導(dǎo)致了這樣的錯誤!边@從一個(gè)側(cè)面也可以反映出語音輸入不易規(guī)范的弊病。
除去口音參差不齊,安徽科大訊飛研究院副院長胡郁認(rèn)為,輸入設(shè)備沒有統(tǒng)一標(biāo)準(zhǔn)也導(dǎo)致了語音輸入的不標(biāo)準(zhǔn):“在語音識別狀態(tài)下,麥克風(fēng)錄音不是給人聽,而是給機(jī)器聽。而現(xiàn)在很多嵌入式設(shè)備上的麥克風(fēng)的錄音質(zhì)量是以人可以聽懂為依據(jù)的。但在什么標(biāo)準(zhǔn)范圍內(nèi),機(jī)器才能聽清聽懂,目前還沒有統(tǒng)一標(biāo)準(zhǔn)!贝送猓鎸Α叭盤的某個(gè)文件”這樣一個(gè)指令,鼠標(biāo)需要層層點(diǎn)擊,但語音識別只需要一句話,當(dāng)然方便。但當(dāng)遇到“點(diǎn)擊這張圖片上的某一點(diǎn)”這樣的命令時(shí)呢?電腦將很難聽懂和判斷這句話的精準(zhǔn)目的,而鼠標(biāo)卻可輕易辦到。
噪聲的困擾
語音輸入很難規(guī)范,從某種程度上說是人為因素造成的,但噪聲卻是一種不可抗力。宋言哥平與胡郁均表示,噪聲環(huán)境的處理是目前語音識別領(lǐng)域公認(rèn)的技術(shù)難題。“這很好理解,機(jī)器無法像人那樣分辨出人聲和噪聲!彼窝愿缙浇忉尩,“同時(shí),不同場景有不同噪聲,訓(xùn)練的情況也不能匹配真實(shí)環(huán)境,這使語音識別在噪聲中比在安靜的環(huán)境下難得多!
目前,主流的技術(shù)思考方向是,研究出盡可能好的算法,使誤差降到最低:在前端,在已混入噪聲的語音中,提取一個(gè)抗噪性高的語音特征;在語音訓(xùn)練的時(shí)候,利用“最小識別錯誤訓(xùn)練方法”,結(jié)合噪聲處理算法訓(xùn)練出一個(gè)語音模型,使識別系統(tǒng)在噪聲環(huán)境里的魯棒性比較高;在語音解碼的過程中進(jìn)行多重選擇,憑借放入解碼機(jī)制的信息,判斷第一順位的答案是否正確,如不正確可以看看第二、三順位的方法。這些方法都可為提高語音識別在噪聲環(huán)境中使用的精準(zhǔn)性而服務(wù)。
完全消除噪聲的干擾從理論上說是可能的——只要算法足夠復(fù)雜和龐大。但是運(yùn)算量的龐大勢必造成兩個(gè)問題:芯片存儲量有限和“萬靈模板”問題。
要不要等待芯片
之前,有科學(xué)家提出“2010年將是語音識別市場爆發(fā)之年”。其實(shí),這是建立在算法成熟的基礎(chǔ)上來預(yù)測的。北京拓源信息咨詢有限公司的總經(jīng)理鄭院生一直關(guān)注語音識別以及其他人工智能技術(shù)的應(yīng)用問題,他認(rèn)為:“從算法和計(jì)算過程的角度看,語音識別其實(shí)是一個(gè)人工智能的問題,如果芯片的運(yùn)算速度足夠快,很多語音識別的技術(shù)難題就可以迎刃而解!
但在現(xiàn)實(shí)中,語音識別在產(chǎn)品轉(zhuǎn)換中遇到了問題,大多運(yùn)用語音識別技術(shù)的設(shè)備都是嵌入式設(shè)備,比如手機(jī)、導(dǎo)航儀、學(xué)習(xí)機(jī)等。“芯片運(yùn)算量、存儲量和消費(fèi)比的問題沒有得到解決。假使嵌入式芯片能像臺式機(jī)的芯片一樣厲害(目前只和1997年的臺式機(jī)一樣),那就解決大問題了!焙舾嬖V記者,“手機(jī)用戶目前只能語音查號碼,這是因?yàn)槭謾C(jī)芯片不夠強(qiáng)大。汽車電腦也達(dá)不到臺式機(jī)的水平。”
“摩爾定律仍舊有效,芯片基礎(chǔ)架構(gòu)和運(yùn)算能力的代際演進(jìn),將為語音識別技術(shù)的不斷成熟提供越來越可靠的物理平臺!编嵲荷鷮φZ音識別的未來保持很大的樂觀!白鳛榧夹g(shù)研究者,我們要么就是提前研究,要么就是坐等芯片運(yùn)算量上來了再研究!彼窝愿缙秸J(rèn)為,技術(shù)一定是跑在市場前頭的。
“松緊帶”怪圈
科學(xué)家大多是完美主義者,都想設(shè)計(jì)一個(gè)像松緊帶一樣的萬靈模板的通用產(chǎn)品,粗腰細(xì)腰都能穿!暗聦(shí)上,按照說話人量身打造的東西才是最好的,可這樣做工本又太高了!彼窝愿缙秸J(rèn)為,做好語音識別通用產(chǎn)品,針對不同場景做細(xì)微調(diào)整之間的權(quán)衡很重要。
此前IBM推出的Via Voice憑借當(dāng)時(shí)堪稱完美的技術(shù)轟動一時(shí),但用戶卻并不買賬,很多軟件被束之高閣!拔艺J(rèn)為包括Vista在內(nèi)的語音識別產(chǎn)品,在人機(jī)界面的人性化設(shè)計(jì)上仍不夠完美自然,這大大降低了用戶的接受度!彼窝愿缙奖硎。好的人機(jī)界面可在用戶說錯而渾然不知時(shí),使計(jì)算機(jī)不被干擾,識別如常。
胡郁則認(rèn)為,目標(biāo)定位不正確(直接采用口述的方式輸入需要不斷思考文本內(nèi)容)是Via voice叫好不叫座的主要原因。而從國內(nèi)外成功的語音識別產(chǎn)品來看,符合用戶需求確實(shí)非常重要。在國內(nèi),語音點(diǎn)歌(有些運(yùn)營商稱之為聲動炫鈴)十分受歡迎,其實(shí)就是孤立詞搜索的一種應(yīng)用。微軟去年年初的時(shí)候,用8億美元收購了一家做電話語音尋址的公司TellMe,從一定程度上說明微軟認(rèn)為語音識別技術(shù)在PC操作之外更有發(fā)展前景,比如在手機(jī)、client-server 的呼叫中心、電話、汽車、智能家電上。
此外,人機(jī)交互界面只是語音識別的一個(gè)用途,另一個(gè)用途則是多媒體的業(yè)務(wù)管理。比如blinkx網(wǎng)站,它把每段視頻中對應(yīng)的語音部分都靠語音識別技術(shù)轉(zhuǎn)換成文字(雖然不一定完全正確),這樣就可以通過輸入文字來協(xié)助搜索視頻內(nèi)容。美國最大的語音技術(shù)提供廠商N(yùn)uance就擁有一個(gè)賺錢的成功業(yè)務(wù)——幫助美國醫(yī)生寫醫(yī)囑。這完全依靠大詞匯量連續(xù)語音識別技術(shù)(LVCSR)來識別醫(yī)生的口頭醫(yī)囑。
如此看來,只要找到一個(gè)好的切入點(diǎn),國內(nèi)企業(yè)也可以做得很好。胡郁甚至隨即開始構(gòu)想如何為記者圈服務(wù)了:采訪累計(jì)下來的歷史錄音,可以借鑒前面Nuance公司的想法轉(zhuǎn)寫出來,從而幫助記者更有效地整理和利用錄音數(shù)據(jù),而這只需要很少的費(fèi)用。
我想,當(dāng)很多人愿意為此掏腰包時(shí),語音識別離平民的世界也將不再遙遠(yuǎn)。