語音識(shí)別 理想與現(xiàn)實(shí)的距離
2007/01/19
讓機(jī)器能夠聽懂人類的語言,一直以來都是人類夢(mèng)寐以求的愿望。在今天,語音識(shí)別到底離我們有多遠(yuǎn)?
很小的時(shí)候愛看科幻小說,在那樣的小說中,曾經(jīng)看到過科幻小說家預(yù)言未來的人會(huì)長(zhǎng)成什么樣子。按照達(dá)爾文的進(jìn)化理論,未來的人腦袋將會(huì)變得極其之大,而四肢則漸漸退化。因?yàn)槿祟愅ㄟ^聰明的大腦,逐步讓四肢從繁瑣的工作中解放出來,最終就會(huì)變成腦袋龐大而四肢退化的模樣。而語音識(shí)別(Speech Recognition)就是在這種科幻進(jìn)程中解放我們雙手的一項(xiàng)重要技術(shù)。
讓機(jī)器直接能夠聽懂人類的語言,一直以來都是人類夢(mèng)寐以求的愿望?墒钦Z音識(shí)別技術(shù)雖行之有年, 但進(jìn)展卻似乎緩慢。當(dāng)記者走進(jìn)中科院聲學(xué)所的中科信利語音實(shí)驗(yàn)室,才切身體會(huì)到,其實(shí)語音識(shí)別離我們并不遙遠(yuǎn)。
哼唱識(shí)別系統(tǒng)
不久前,中科院聲學(xué)所的中科信利語音實(shí)驗(yàn)室開發(fā)出了一種“哼唱檢索系統(tǒng)”,無需鼠標(biāo)鍵盤,對(duì)著話筒哼唱出歌曲的旋律就可以檢索到哼唱歌曲的曲名。當(dāng)記者在中科信利語音實(shí)驗(yàn)室的會(huì)議室,面對(duì)屏幕,拿著話筒哼起一段鄧麗君的《甜蜜蜜》的旋律時(shí),大概只用了6~10秒,檢索系統(tǒng)就自動(dòng)檢索出來了所哼唱旋律的歌名,并附上了完整的歌詞。
“哼唱檢索系統(tǒng)是通過旋律匹配進(jìn)行檢索的!辈┦慨厴I(yè)論文專門研究哼唱檢索系統(tǒng)的語音助理研究員李明介紹說。哼唱檢索系統(tǒng)根據(jù)歌曲旋律的走勢(shì)來匹配檢索,而不是通過音調(diào)。因?yàn)橐粽{(diào)的基準(zhǔn)會(huì)有所不同,這就大大降低了檢索識(shí)別的適用性。所以,對(duì)于哼唱檢索系統(tǒng)的使用者而言,哼唱節(jié)奏的快慢,以及記得歌詞與否,都對(duì)檢索識(shí)別沒有影響。正是因?yàn)榇耍@套系統(tǒng)在由美國(guó)伊利諾斯大學(xué)負(fù)責(zé)主辦的國(guó)際音樂信息檢索評(píng)測(cè)比賽(MIREX)中,以92%的準(zhǔn)確度獲得了第一名的好成績(jī)。
任何系統(tǒng)都不能只存在于實(shí)驗(yàn)室中,哼唱檢索系統(tǒng)業(yè)理所當(dāng)然要走出實(shí)驗(yàn)室!拔覀兊暮叱獧z索系統(tǒng)已經(jīng)在河北等地的移動(dòng)彩鈴業(yè)務(wù)中應(yīng)用了。”中科信利語音實(shí)驗(yàn)室研究室主任顏永紅說!坝脩敉ㄟ^哼唱一段旋律,就能查找到自己聽過卻不知道名稱的歌曲或彩鈴,然后進(jìn)行點(diǎn)播和下載。這種大規(guī)模的商業(yè)應(yīng)用,已經(jīng)進(jìn)入了成熟階段!鳖佊兰t還表示,實(shí)驗(yàn)室正在著手和互聯(lián)網(wǎng)幾大音樂內(nèi)容提供商合作,相信在不久的將來,就可以實(shí)現(xiàn)在互聯(lián)網(wǎng)上哼唱一段旋律來檢索歌曲名稱。
提高識(shí)別率
對(duì)于中科信利語音實(shí)驗(yàn)室研究出來的這套哼唱識(shí)別系統(tǒng),還有一個(gè)更好的應(yīng)用前景就是在KTV等場(chǎng)所的歌曲檢索。對(duì)于愛好唱歌的人而言,一定都有過這樣的經(jīng)歷: 往往熟悉一首歌曲的旋律,卻記不住歌曲的名稱。特別是在KTV點(diǎn)唱時(shí),K友常常會(huì)遇到這樣的問題,想唱卻又找不到歌名。哼唱檢索系統(tǒng)正好解決了這樣的問題。試想,當(dāng)有一天,我們?cè)贙TV中點(diǎn)歌時(shí),不必再通過繁瑣的手動(dòng)操作界面,而只需要通過口頭來完成,那種感覺又豈是方便兩個(gè)字能簡(jiǎn)單概括的。而這種搜索模式的實(shí)現(xiàn),其實(shí)只要在KTV的點(diǎn)歌系統(tǒng)中嵌入哼唱檢索系統(tǒng)的技術(shù)就可以了。
但是,中科信利語音實(shí)驗(yàn)室開發(fā)出來的哼唱檢索系統(tǒng)對(duì)哼唱的環(huán)境是有所要求的!拔覀兊臋z索環(huán)境要求是要相對(duì)安靜的!崩蠲鬟@樣介紹說。那么,對(duì)于KTV中過于嘈雜的語音環(huán)境,哼唱檢索系統(tǒng),如何發(fā)揮他的威力呢?
“目前語音識(shí)別技術(shù)需要解決的問題,一個(gè)是對(duì)噪音環(huán)境的處理,一個(gè)是對(duì)不同口音的識(shí)別,再一個(gè)就是要不斷提出好的算法!鳖佊兰t這樣對(duì)記者說到。語音識(shí)別技術(shù)的基本原理就是對(duì)輸入的語音信號(hào)進(jìn)行分析,抽取語音特征參數(shù)與存儲(chǔ)器中的語音模板的參數(shù)進(jìn)行匹配識(shí)別。因此,語音識(shí)別技術(shù)不僅對(duì)識(shí)別的背景、噪聲干擾有要求,同時(shí),對(duì)說話者的清晰程度、連貫程度,以及是否口語化是否帶口音,也都有要求。這些正是導(dǎo)致語音識(shí)別技術(shù)識(shí)別率不高的主要原因,也是導(dǎo)致語音識(shí)別技術(shù)一直沒有能夠大規(guī)模展開應(yīng)用的瓶頸。
如何提高識(shí)別率一直都是語音識(shí)別技術(shù)不斷挑戰(zhàn)的問題。基于目前的語音識(shí)別技術(shù),語音識(shí)別的應(yīng)用,應(yīng)該是相對(duì)小眾的,而且面對(duì)特殊人群的。例如,某一領(lǐng)域,相對(duì)安靜背景的語音識(shí)別的應(yīng)用,又或,就目前而言,語音識(shí)別技術(shù)對(duì)于盲人群體的作用與幫助要大大高于一般的正常人。
語音識(shí)別搜索
語音識(shí)別技術(shù)一個(gè)很有效的應(yīng)用,就是語音識(shí)別搜索!罢Z音識(shí)別搜索主要有三種方式: 原聲搜索、旋律匹配搜索和語音搜索。”中科信利語音實(shí)驗(yàn)室副研究員趙慶衛(wèi)博士告訴記者。原聲搜索是針對(duì)原始聲音進(jìn)行完整匹配的搜索。除人聲外,其他周遭的一切聲音都可以針對(duì)原聲搜索出其位置。而哼唱檢索系統(tǒng)就是典型的旋律匹配搜索。至于語音搜索,是指針對(duì)某一特定人員的語音進(jìn)行篩選搜索的方式。
在信息瘋狂膨脹的時(shí)代,對(duì)于浩瀚信息中的有效資源搜索毫無疑問是相當(dāng)重要的。而且,信息已經(jīng)不單純是以往的純文本,而是逐步發(fā)展到了音頻、視頻領(lǐng)域。以往單純通過音頻、視頻文件的文本標(biāo)簽來搜索音、視頻文件已經(jīng)不足以滿足用戶的需求。通過語音識(shí)別對(duì)音、視頻內(nèi)容的搜索已經(jīng)開始廣泛應(yīng)用。
美國(guó)的Blinkx就是最先開始應(yīng)用語音識(shí)別進(jìn)行內(nèi)容搜索的網(wǎng)站之一。而在國(guó)內(nèi),openv.tv也露出了做專業(yè)的電視及視頻搜索引擎的意圖。當(dāng)文字搜索已經(jīng)發(fā)展到幾乎沒有上升空間的時(shí)候,微軟、Google這些技術(shù)巨頭也開始瞄準(zhǔn)未來的語音、視頻搜索市場(chǎng)。
未來無限大
語音識(shí)別芯片的應(yīng)用范圍其實(shí)十分廣闊: 電話通信中的語音撥號(hào)、汽車的語音控制、工業(yè)控制及醫(yī)療領(lǐng)域的人機(jī)語音交互界面、個(gè)人數(shù)字助理(Personal Digital Assistant,PDA)的語音交互界面、語音智能玩具、家電的語音遙控等。解放雙手,豐富溝通,是在這些領(lǐng)域應(yīng)用的共性。
除此之外,語音識(shí)別還可以給我們帶來更多的便利!罢Z音識(shí)別的關(guān)鍵一個(gè)是發(fā)音評(píng)估,一個(gè)是內(nèi)容識(shí)別。”趙慶衛(wèi)說。除了哼唱檢索系統(tǒng)以外,中科信利語音實(shí)驗(yàn)室在音頻水印、發(fā)音糾正、語種識(shí)別等方面都有成果。音頻水印是以編碼方式嵌入音、視頻文件,主要應(yīng)用于音、視頻文件的版權(quán)保護(hù)、保密通信以及廣播監(jiān)聽。發(fā)音糾正軟件可以對(duì)說話人的發(fā)音進(jìn)行評(píng)估和分析,特別有助與用戶的語言學(xué)習(xí)。據(jù)趙慶衛(wèi)介紹,這種發(fā)音糾正已經(jīng)用于國(guó)內(nèi)部分地區(qū)推廣普通話的進(jìn)程中了。
“市場(chǎng)每年;都在變大。”談及語音識(shí)別市場(chǎng)的未來時(shí),顏永紅如是說。根據(jù)半導(dǎo)體行業(yè)的摩爾定律,硬件成本過高是導(dǎo)致語音識(shí)別技術(shù)無法在家電等領(lǐng)域應(yīng)用的主要原因。“早在2002年,技術(shù)上就已經(jīng)實(shí)現(xiàn)在電話上應(yīng)用語音識(shí)別技術(shù)了,但是卻只能用在部分高端手機(jī)上!鳖佊兰t說。
中科信利語音實(shí)驗(yàn)室目前一直在和致力于芯片技術(shù)的廠商合作,從而有效地解決了語音處理過程中遇到的噪聲等問題,提高了聲學(xué)語音傳達(dá)的準(zhǔn)確性,與語音識(shí)別軟件技術(shù)形成優(yōu)勢(shì)互補(bǔ)。
“希望10年到20年的時(shí)間內(nèi),語音識(shí)別技術(shù)會(huì)有長(zhǎng)足的發(fā)展。”顏永紅充滿期盼地說道。也許過不了多久,面貌煥然一新、同時(shí)蘊(yùn)藏巨大商機(jī)的語音識(shí)別應(yīng)用熱潮,將會(huì)徹底改變?nèi)藗兊乃季S定勢(shì),其實(shí)理想和現(xiàn)實(shí)的距離并不如我們想象的那么遙遠(yuǎn)。
計(jì)算機(jī)世界網(wǎng)
相關(guān)鏈接: