首頁>>>技術(shù)>>>語音應用>>>語音識別(ASR)  語音識別產(chǎn)品

聲音的力量:對話谷歌語音技術(shù)負責人

2011/02/17

  北京時間2月16日消息,據(jù)國外媒體報道,知名科技博客TechCrunch作者賈森·金凱德(Jason Kincaid)發(fā)表文章,講述了他與谷歌語音技術(shù)負責人邁克·科恩(Mike Cohen)最近進行的一次談話,內(nèi)容涉及谷歌大力投入語音技術(shù)的原因及發(fā)展前景。
谷歌語音技術(shù)負責人邁克·科恩(Mike Cohen)

谷歌語音技術(shù)負責人邁克·科恩(Mike Cohen)

  以下為全文摘要:

  盡管智能手機應用程序花樣翻新,層出不窮,但是如果你拿出手機,說一聲“尋找到科技館的道路”,谷歌就會立即照做的話,你仍然會感到這個情景有點不太尋常。語音技術(shù)通過iPhone應用程序,以及與Android的深度整合,正在變得日益普遍,而這實際上僅僅是一個開始。

  回顧過去

  在討論現(xiàn)在的狀況之前,我們先來回顧一下科恩過去的經(jīng)歷,也可以說這是在回顧語音技術(shù)的歷史,因為雖然科恩從2004年開始一直在谷歌工作,但他自80年代初在斯坦福研究院做研究時起,就站在語音和技術(shù)的交匯之處,至今已經(jīng)幾十年了。

  科恩說,在20世紀70年代語音工作有兩大陣營:語言學家和工程師。語言學家強調(diào)規(guī)則——他們會找出語法和發(fā)音上的各種趨勢,以及每一個音素如何與其他音素互動。工程師們則采用了不同的方法:他們的目標不是試圖以人工方式精心確定每個規(guī)則,而是構(gòu)建復雜的統(tǒng)計模型,當有更多的語音數(shù)據(jù)輸入到這些模型中時,它們就會得以改進。

  到了70年代末和80年代初,當科恩開始在斯坦福研究院做研究時,工程師們正處于領(lǐng)先位置,但是存在著這樣一個問題:統(tǒng)計模型的改進已經(jīng)開始形成漸近線?贫鹘忉屨f,因為這些模型總是相同的,向它們輸入更多的數(shù)據(jù)終究會出現(xiàn)報酬遞減(例如他們的模型不善于識別發(fā)音在多大程度上取決于哪些詞被說出,又在多大程度上取決于上下文是什么)。工程師們需要找到一種方式來建立更好的模型,所以他們終于開始與語言學家們合作,造就了另一波研究熱潮。

  到90年代初,語音技術(shù)已經(jīng)獲得了長足的發(fā)展,研究人員創(chuàng)建了航空旅游信息系統(tǒng)(ATIS,Air Travel Information System,用戶可以走到一個終端,說“告訴我從波士頓出發(fā)的航班”,計算機就會顯示相關(guān)數(shù)據(jù)。該系統(tǒng)可以識別這些命令無數(shù)種的變化,因此你不必記住某些關(guān)鍵字)。在Windows 95面市時就有了ATIS這樣的系統(tǒng),這讓人覺得有些不可思議。

  在ATIS獲得成功的基礎(chǔ)上,科恩認為這項技術(shù)已經(jīng)做好了商業(yè)應用的準備,所以他和三個聯(lián)合創(chuàng)始人創(chuàng)辦了Nuance公司,為需要處理大量呼入電話的大公司建立自動電話系統(tǒng)(電話公司的客戶服務系統(tǒng)就是一個例子)。

  科恩繼續(xù)尋找改善Nuance語音識別軟件的方法(鑒于他曾是一位研究者,這也就不足為奇了)。而且事實證明,海量的呼入錄音比他在斯坦福研究院做研究時獲得的數(shù)據(jù)更加有用,因為有些東西無法在實驗室環(huán)境中重現(xiàn),比如背景中的狗叫聲,孩子的哭聲等等,而這些聲音會出現(xiàn)在呼入的電話中,所以Nuance面臨著語音分析的重大新挑戰(zhàn)。

  但這里有一個很大的問題:盡管Nuance的技術(shù)正在處理大量數(shù)據(jù),Nuance公司還是必須向它的每個企業(yè)客戶提出請求,以便獲得這些數(shù)據(jù)用于研究目的。這樣做對企業(yè)有好處,因為它們能從技術(shù)改進中獲益,但一些企業(yè)仍然對此持謹慎態(tài)度。這最終導致科恩進入了谷歌。

  GOOG-411項目

  在2004年前,谷歌基本上沒有語音技術(shù),但是科恩看到了機會。即使在那個時候,手機將對未來技術(shù)產(chǎn)生巨大影響的跡象就很明顯。而且,由于谷歌直接面對最終用戶,它收到的任何語音數(shù)據(jù)都可以方便地用于研究目的。于是科恩進入谷歌,著手開展GOOG-411項目,后來它成為谷歌的免費411語音服務。

  這項服務在2007年推出,它提供了一個簡單方便的功能集:你給它打電話詢問一些基本信息,比如一個企業(yè)的電話號碼,它就會馬上為你提供相關(guān)信息,而且是免費的。科恩說,推出GOOG-411的主要原因就是“它有用”,但它還有一個重要的副作用:谷歌從此開始建立一個龐大的語音數(shù)據(jù)庫。還記得前面討論過的數(shù)據(jù)模型嗎?谷歌語音系統(tǒng)在概念上與之類似,但是規(guī)模大得多。

  GOOG-411項目在十月份取消了,但這時谷歌已經(jīng)有了更多的語音數(shù)據(jù)輸入方式,包括在Android上到處可見的麥克風按鈕,以及Google Mobile的iPhone應用程序。而且谷歌可以查看基于文本的搜索查詢詞條,確定一個詞后面出現(xiàn)得最頻繁的是哪個詞。這一切都意味著谷歌可以相對較快地改進其語言模型。

  科恩說,如今谷歌使用2300億個搜索查詢詞條來“培訓”其語音識別功能所使用的語言模型。為了形象地說明數(shù)據(jù)量有多大,科恩說,如果只用一個CPU,這個“培訓”需要70年時間才能完成。

  這項技術(shù)現(xiàn)在已經(jīng)用在谷歌的多種產(chǎn)品中。YouTube自動為數(shù)百萬視頻添加了字幕。谷歌語音服務嘗試將呼入的語音郵件轉(zhuǎn)錄成文字(產(chǎn)生了一些非常滑稽的結(jié)果)。語音搜索將在移動設(shè)備上發(fā)揮更大的作用,所以,如果在不太遙遠的將來,你看到配有媒體中心的車輛在運行Android,請不要感到驚訝,它們肯定帶有語音功能。

  科恩很高興地談起谷歌在聲音技術(shù)上做出的努力,但他沒有透露統(tǒng)計數(shù)據(jù),即將發(fā)布的功能,也沒有做出預測?贫鞒姓J,谷歌語音搜索的量波動很大,取決于是否有新的帶有語音功能的服務推出,以及是否報刊最近進行了報道。

  當我問他,多久之后語音搜索將變得非常準確,以至于我們可以將它視為理所當然(指不需要再檢查文字的拼寫錯誤),雖然他說了類似于“五年”這樣話(對于研究工作而言,這相當于是說“我不知道”),但他不愿意談及具體計劃。

  我也問過他,對蘋果在語音技術(shù)方面采取的行動有什么想法(蘋果去年收購了以語音搜索技術(shù)為主的公司Siri,很明顯蘋果想把將語音技術(shù)納入到iOS中),科恩同樣也沒有這個問題上說多少(雖然這并不令人感到驚訝)。他只是說,谷歌已經(jīng)推出了一個產(chǎn)品,因此擁有數(shù)據(jù)量大的天然優(yōu)勢,但這個問題的答案最終將歸結(jié)于蘋果開發(fā)了什么產(chǎn)品以及它與誰合作。

  不過,雖然科恩沒有談及具體細節(jié),他卻講到了谷歌語音技術(shù)的長遠目標:讓語音輸入變得無處不在。 “就像你可以在很多地方用鍵盤輸入文本,你也應該可以在很多地方使用語音輸入!倍鴾蚀_性是其中的一個要點 “它需要極為‘接近完美’,人們選擇使用語音輸入不在于它的表現(xiàn),而在于最終用戶的喜好!

騰訊科技



相關(guān)閱讀:
捷通華聲開啟語音手寫識別智能云服務 2011-02-16
三大電信運營商爭做語音微博 名人帶動引關(guān)注 2011-02-16
DCI體系助運營商建立有效“防火墻” 2011-02-15
各大移動公司相繼推WAC應用程序 試圖搶占制高點 2011-02-15
移動互聯(lián)網(wǎng)市場井噴 超越互聯(lián)網(wǎng)指日可待 2011-02-15

熱點專題:  語音合成TTS 語音識別ASR    移動互聯(lián)網(wǎng)
分類信息:  移動互聯(lián)網(wǎng)_與_語音應用  移動互聯(lián)網(wǎng)_與_移動  移動互聯(lián)網(wǎng)_與_移動