蘋果Siri善解人意 語音應(yīng)用引爆在即
2011/11/23
多年來,語音識別技術(shù)始終磕磕巴巴、欲語還休。現(xiàn)在,Siri橫空出世,將這項技術(shù)推向了主流,同時還帶來了非常廣泛的應(yīng)用前景。
語音識別并不是什么新鮮事物。多年來,消費電子產(chǎn)品、汽車和自動呼叫中心一直就在“傾聽”使用者的指令。從2009年開始,谷歌公司(Google)就一直在采錄語音信箱的信息。而在此之前三年,微軟公司(Microsoft)也將類似的技術(shù)置入了Windows Vista。那么,蘋果這個名為Siri的全新虛擬個人助理到底有什么神奇之處呢?
它能讀懂你的心。
換句話說,Siri不僅僅是語音識別技術(shù),它還能理解語言——正是這一點開始改變用戶與手機的互動方式,F(xiàn)在,很多人預(yù)測,Siri將對這項長期以來呼之欲出的技術(shù)起到重大推動作用,正如蘋果iPhone的觸控系統(tǒng)讓觸控技術(shù)躋身主流一樣。這項技術(shù)將掃清眾多創(chuàng)新應(yīng)用發(fā)展道路上的障礙。市場調(diào)研公司Opus Research稱,今年語音識別行業(yè)的產(chǎn)值將達到約27億美元。該公司還預(yù)計,2012年,市場將掀起后Siri語音應(yīng)用熱潮。
是什么讓Siri如此與眾不同呢?戰(zhàn)略咨詢公司Creative Strategies總裁提姆•巴佳瑞稱,答案在于精確性。他說:“Siri推出的是真正的新一代人機界面,它對語音理解及精確把握語音的市場產(chǎn)生了重大影響!
Siri當(dāng)然談不上完美無缺。這項技術(shù)在理解某些口音上還頗為困難,不過蘋果已經(jīng)在努力解決這些小問題了。但對一款軟件來說,Siri的表現(xiàn)可圈可點。Siri的始創(chuàng)者是位于加州的門羅帕克市的研究實驗室SRI International,據(jù)它稱,Siri的關(guān)鍵在于自然語言處理技術(shù)。Siri的工作原理是:捕捉語音信號,直接將其轉(zhuǎn)換為文本,它們與用戶在手機屏幕上看到的文本并無二致。Siri然后將這些語句與某些預(yù)先編制好的指令配比,比如“撥打電話”,或“編輯短信”。
這一技術(shù)潛力巨大,絕不是只適用于平板電腦和智能手機。語音識別系統(tǒng)Nuance公司是語音識別軟件Dragon的開發(fā)者,這款軟件在醫(yī)療保健行業(yè)的應(yīng)用已經(jīng)長達十年之久。內(nèi)科醫(yī)生的桌面上正運行著Nuance的最新軟件,它利用一個夾式微型話筒來錄音。隨著問診的推進,這款軟件會及時更新病人的電子健康記錄。Nuance公司醫(yī)療保健部門的資深研發(fā)副總裁喬•佩特羅稱:“病人可能在這一秒說的是母親的病史,下一秒又提起父親的病歷。而這些情況這款軟件都能理解。”
它是如何做到的呢?它的工作原理和Siri非常相似:通過從它所識別的語匯中獲取意義,然后參照一個醫(yī)療信息數(shù)據(jù)庫,將其與病人的病史做比對。隨后,它會運用統(tǒng)計推斷的方法,在其所發(fā)現(xiàn)的信息片段之間建立聯(lián)系,甚至為對癥治療給出建議。全美大約有45萬名內(nèi)科醫(yī)生正在使用Nuance公司的軟件。佩特羅稱,這一技術(shù)的準(zhǔn)確率超過90%,而且還會隨著時間推移而不斷提高。顯然,這款軟件盈利前景良好,因此Nuance公司決定,將其第四財季的收入預(yù)期調(diào)高約1,000萬美元。
然而,研究人員對這一技術(shù)的未來抱有更大的希望。思凱普•里佐是南加州大學(xué)創(chuàng)新技術(shù)學(xué)院(the University of Southern California's Institute for Creative Technologies)的助理總監(jiān)。他正在開發(fā)一種互動仿真技術(shù),用以幫助退伍軍人針對創(chuàng)傷后緊張癥(post-traumatic stress disorder)尋求醫(yī)療咨詢服務(wù)。這款軟件名為SimCoach,它的最終目的是要設(shè)法理解人們口語背后的情緒狀態(tài)。里佐稱:“這是個十分巨大的挑戰(zhàn)。因為必須采集語音模式,然后得像人類的大腦那樣對它們進行分析!崩镒舴Q,人類或許能察覺自己的好友或家人情緒異常,因為這時人們的語速往往會變慢,重音也更少,但電腦要捕捉這些信號可就相當(dāng)困難了。
不過這個領(lǐng)域的有些研究卻能更快獲得成果,而不用再苦苦等待。去年春天,里佐的研究伙伴——麻省理工學(xué)院(MIT)教授阿歷克斯•彭特蘭在美國銀行(Bank of America)的呼叫中心開展了一項類似的語音推斷技術(shù)試驗,旨在分析員工的溝通對業(yè)務(wù)成功的影響。彭特蘭讓員工連續(xù)六周在脖子上戴著小型電子設(shè)備,它們能記錄員工的實際位置以及身體語言和聲音。所記錄的數(shù)據(jù)能顯示這些員工是在和誰溝通,他們站著時與溝通對象距離有多遠,談話的語調(diào)如何。彭特蘭稱:“我們發(fā)現(xiàn),效率最高的員工不光與大量對象交談,他們還與同樣表現(xiàn)出這種特點的同事交談!苯Y(jié)果,他說,只需要調(diào)整一下員工的茶歇時間,使這類員工之間的步調(diào)更為同步,這個呼叫中心每年就能節(jié)省1,500萬美元。
用戶現(xiàn)在對Siri的廣泛關(guān)注很可能將大大促進這類研究,并進一步推進其應(yīng)用。里佐說:“語音識別技術(shù)確實是技術(shù)領(lǐng)域至高無上的圣杯(holy grail)。我們已經(jīng)掌握了這項技術(shù)的90%,但剩下的10%要求攻克更多難關(guān)。一旦到了引爆點,我們將迎來一片十分廣闊的市場!笨雌饋,這個引爆點很可能非Siri莫屬。
財富中文網(wǎng)
相關(guān)閱讀: