發(fā)表評論分享按鈕

Siri背后的技術

2011/10/25

  今年10月,Apple發(fā)布了iphone 4S with IOS 5,其中最大的亮點就是一個語音搜索軟件-Siri。一時間,各種geek,偽geek,碼農,非碼農都流行起調戲siri,各種調戲視頻,音頻大量出現(xiàn)。不過,常言道“外行看熱鬧,內行看門道”,作為一個“偽內行”,或者“欲做內行而不得”的人,根據自己的知識,以及一些搜索工具,嘗試了解了一下Siri的“門道”,在這里做個總結,列出siri所可能用到的技術。

  Siri是IOS上的個人助理應用:此軟件使用到自然語言處理技術,使用者可以使用自然的對話與手機進行互動,完成搜尋資料、查詢天氣、設定手機日歷、設定鬧鈴等服務。

  Siri所用到的技術,很多人會回答,人工智能以及云計算,的確,總體來說,是這兩樣技術,不過,這種概述感覺幾乎沒有任何意義,和不直接說“計算技術”(注意,不是計算機技術)呢。因此,在本文,我將介紹下我了解Siri可能采用的技術。

  首先,在前端方面,即面向用戶,和用戶交互(User Interface,UI)的技術,主要是語音識別以及語音合成技術。語音識別技術是把用戶的口語轉化成文字,其中需要強大的語音知識庫,因此需要用到所謂的“云計算”技術。而語音合成則是把返回的文字結果轉化成語音輸出,這個技術理論上本地就能完成(以前用過科大訊飛的在windows mobile上的本地語音閱讀軟件,軟件很小,但能讀的很好,還支持方言),但不知道Siri是否如此,當然,在云端完成也并無不可,在當前無線帶寬下,那點語音流量根本不算什么。

  其次,后臺技術,這些其實才是真正的大角色(當然,普通用戶是不會在意的,他們只會覺得前端很炫,哎,這就是做后端的悲哀,小小感嘆一下)。這些技術的目的就是處理用戶的請求,并返回最匹配的結果,這些請求類型很多,千奇百怪,要處理好并不簡單;镜慕Y構猜測可能是分析用戶的輸入(已經通過語音轉化),根據輸入類型,分別采用合適的技術(合適的技術后面)進行處理。這些合適的后臺技術包括,①以Google為代表的網頁搜索技術;②以Wolfram Alpha為代表的知識搜索技術(或者知識計算技術);③以Wikipedia為代表的知識庫(和Wolfram Alpha不同的是,這些知識來自人類的手工編輯)技術(包括其他百科,如電影百科等);④以Yelp為代表的問答以及推薦技術。

  下面,對上面提到的各種技術進行簡要介紹(如有空,后面的博文可能會對某些技術詳細的介紹,大家耳熟能詳?shù)木兔饬耍,強調下,介紹的有些參考來源是維基百科相關詞條,下面不一一列出:

  語音識別以及語音合成技術語音識別技術,也被稱為自動語音識別(英語:Automatic Speech Recognition, ASR),其目標是將人類的語音中的詞匯內容轉換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。與說話人識別及說話人確認不同,后者嘗試識別或確認發(fā)出語音的說話人而非其中所包含的詞匯內容。語音識別技術所涉及的領域包括:信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等等。

  語音合成是將人類語音用人工的方式所產生。若是將電腦系統(tǒng)用在語音合成上,則稱為語音合成器,而語音合成器可以用軟/硬件所實現(xiàn)。文字轉語音(text-to-speech, TTS)系統(tǒng)則是將一般語言的文字轉換為語音,其他的系統(tǒng)可以描繪語言符號的表示方式,就像音標轉換至語音一樣。

  相比于語音識別,語音合成感覺難度要低,并且基本能夠在本地完成(很多OS都有內置的語音合成引擎)。而語音識別,由于涉及到語義理解,難度大大加大,需要大量的知識庫,一般需要在云端完成。

  另外,在國內,這方面做的很好的公司也有,比如鄙人本科所在學校的科大訊飛,就是中文語音合成以及識別的領軍企業(yè),在英文語音合成領域其實也很牛,拿過很多獎。國外的話,比較早的應該是IBM ViaVoice。

  網頁搜索技術這個我想沒必要介紹,大家天天用的Google就是這個技術的代表。而國內的話,則以百度為代表。

  知識計算(搜索)技術(Computational Knowledge)這個技術的代表是Wolfram|Alpha。

  不同于搜索互聯(lián)網信息,Wolfram|Alpha將從公眾的(包括公開的網頁等)和獲得授權的資源中,發(fā)掘、建立起一個異常龐大的經過組織的數(shù)據庫,再利用高級的自然語言算法進行處理,最終構造出一個類似于谷歌搜索的工具。

  和網頁搜索技術不同的是,在這個系統(tǒng)中,得到的答案結構化程度很高,比如搜索China,能得到和中國相關的各種參數(shù)以及資料,并以接近表格的方式呈現(xiàn)。Wolfram|Alpha也能理解部分自然語言,比如輸出How old are you,其會回答Wolfram|Alpha的年齡。想測試這項技術的請移步Wolfram|Alpha。

  這個技術國內做的應該有,但還沒有產品,也許百度的框計算算是半個。所以機會大大的有。

  知識庫技術這名字是我自己起的,不知道有沒有貽笑大方。。。這個技術的代表是維基百科,以及各種專門的百科網站。相比于網頁搜索技術,基本以一個詞條或者主題為單位,因此得到的數(shù)據價值高,知識量大,并且結構化程度好。相比于知識計算技術,這些技術需要人的參與,這有利也有弊,利就是,畢竟暫時人比機器聰明,編輯出來的知識更豐富,準確;弊就是,人力有限,即使像維基那樣,發(fā)動社區(qū)的力量,也不能產生足夠的知識,而知識計算,理論上,只需要算法夠牛叉,是可以產生“無限”的知識的。

  另外,寫到這里,我想起Yahoo和Google的故事,當年,Yahoo是搜索老大,就像現(xiàn)在的Wekipedia在知識搜索領域一樣,而Google是小弟,就像Wolfram|Alpha在知識搜索領域一樣。但后來,卻反過來了,Googe成了網頁搜索老大,Yahoo成了小弟,原因就是Google相信算法的結果,把所有事都交給算法做,而Yahoo,很多索引都是人工編輯的。我想,也許有一天,Wekipedia和Wolfram|Alpha也會出現(xiàn)這樣的情況。

  問答推薦技術其實這不能稱為一個技術,應該屬于知識庫的技術。不同的是,這個技術針對的是一些生活信息,這些信息的地域化程度很高,典型代表為Yelp。由于這東西比較簡單,就不仔細介紹了。

  其實在國內,這方面的網站也有,那就是大眾點評網這些。

  讀完此文,你也許會發(fā)現(xiàn),其實Siri并沒有什么革命性的技術,其本質是將各種已經比較成熟的技術融合成一個產品,最終呈現(xiàn)給用戶,因此,完全沒必要對Siri神圣化。

  另外,Siri其實是蘋果買來的,在蘋果買來之前,Siri本來是會推出Android版本的,可是,被蘋果購買后,Android版本的Siri遙遙無期了(不過,這為廣大的Android開發(fā)者以及公司提供了機會)。而Siri之前默默無聞,但是一從蘋果推出,卻聲名鵲起,不得不佩服Apple以及Jobs的眼光以及執(zhí)行力。

Sigma



相關閱讀:
Siri10種“非娛樂”的“正經”用法 2011-10-24
蘋果iPhone 4S銷量達到創(chuàng)紀錄 2011-10-18
Siri語音助手大受歡迎 蘋果服務器不堪重負 2011-10-18
蘋果:Siri語音識別明年將支持5國語言 2011-10-17
回憶喬布斯:不為外界所知的“WiFi教父” 2011-10-17

熱點專題:  語音合成TTS 語音識別ASR    移動增值   移動互聯(lián)網
分類信息:  移動增值_與_移動互聯(lián)網  移動增值_與_CTI文摘  移動互聯(lián)網_與_移動  CTI文摘_與_移動
相關頻道:  增值電信文摘