首頁>>>技術(shù)>>>語音應(yīng)用>>>語音識別(ASR)  語音識別產(chǎn)品

發(fā)表評論分享按鈕

Siri投資人暢談虛擬個人助理VPA未來

2012/03/28

  3月28日消息,據(jù)國外媒體報道,(編者按:Norman Winarsky是Ventures的副總裁,Bill Mark是科學(xué)研究發(fā)展組織SRI國際的信息計算科學(xué)部門副總裁。Norman和Bill合作支持了Siri的投資,同時Norman也是投資委員會的成員。這篇文章也是他們二位合作完成。)自從iPhone4S發(fā)布以來,Siri已經(jīng)成為一種潮流。Siri是基于突破性的語音和人工智能技術(shù)的革命性消費軟件產(chǎn)品。Siri作為一種消費習(xí)慣也廣泛應(yīng)用在其他消費媒體,甚至去年11月谷歌CEO施密特曾向美國參議院司法委員會作證表示Siri具有成為谷歌主要威脅的潛力,Siri也一度成為熱播美劇《生活大爆炸》的劇情。

  毫無疑問,Siri是蘋果和史蒂夫喬布斯的杰作,將虛擬個人助理(VPA)帶給億萬消費者,改變了人們看待智能電話的態(tài)度。研發(fā)團(tuán)隊的天才設(shè)計使得Siri超越了簡單工具本身,并賦予其人類的個性和交互特征。正像某些與Siri的有趣對話:“Siri你喜歡我么?你知道哪能埋人么?”

  我們都堅信蘋果將持續(xù)改進(jìn)Siri,未來的新技術(shù)也會不斷創(chuàng)造出不同種類的VPA。舉例來說蘋果很可能面向開發(fā)者開放Siri的API,繼而孕育出成千上萬的與個人助理相關(guān)的應(yīng)用;蛟S不久之后所有的應(yīng)用都可以進(jìn)行有實用價值的語音交互,用戶也會漸漸習(xí)慣并將之視為順理成章的功能。

  暫且拋開贊美之詞和理性思考,鑒于Siri的核心價值,那么接下來的發(fā)展方向是什么?

  我們通常會這樣認(rèn)為:人們已經(jīng)認(rèn)識到VPA發(fā)展的廣闊前景,Siri正好處于這個過程的第一步。下文描繪了我們對Siri未來的暢想。

  首先,Siri的巨大影響力改變了整個產(chǎn)業(yè),在SRI,我們將VPA技術(shù)看作是未來產(chǎn)品的核心特性,無論是智能電視、健康護(hù)理助手、虛擬教育助理等等,都將具備語音交互能力。VPA不會是一時風(fēng)靡,而是計算領(lǐng)域長期致力的方向和終極目標(biāo)。正如我們所言,SRI正在著手三項與VPA相關(guān)的研發(fā),這三個項目已經(jīng)有風(fēng)險投資跟進(jìn),具體的新產(chǎn)品正準(zhǔn)備發(fā)布,前景不可估量。

  從技術(shù)角度來說,Siri真正的影響力是正如廣泛宣傳的“具有實用性的自然語言輸入”,這一用語音代替鍵盤與計算機(jī)交流的方式是一個古老的夢想,歷經(jīng)三十多年才達(dá)到現(xiàn)在這種能與用戶進(jìn)行簡單流暢溝通的程度。

  開發(fā)一套具備“有限詞匯和口語識別”能力的軟件是第一步,公眾熟悉的呼叫中心的自動應(yīng)答系統(tǒng)就是這樣首先登上歷史舞臺的。但一套能夠讓計算機(jī)對很寬泛的口語輸入做出可信回應(yīng)的軟件,開發(fā)過程的確相當(dāng)具有挑戰(zhàn)性。Siri不僅需要語音識別技術(shù),還需理解自然語言、文本的含義,并最終理解句意(這一點也是現(xiàn)今大多數(shù)人工智能研究的核心)。

  繼Siri之后,新的增強語音的人工智能將成為SRI投資重點,尤其是被美國國防部看中的項目,將著重增強處理復(fù)雜用戶情況的性能表現(xiàn)。

  那么對于那些即將面世的技術(shù),VPA最需要具備的素質(zhì)是什么?

  下一代VPA將會與用戶建立更加深入的關(guān)系。今天的Siri有一個使用語音對話的界面,但對話通常只能持續(xù)一到兩個問答語句。將來的用戶與VPA的對話會是復(fù)雜的帶有多層次和更多細(xì)節(jié)的過程,主題涉及健康保健、旅游計劃、購買衣服或者闡述計劃書等復(fù)雜背景。

  下一代VPA將有可能長時間保留對話內(nèi)容,清晰記錄人機(jī)討論的細(xì)節(jié)、提供的答案、具體執(zhí)行的任務(wù),因為只有越多的進(jìn)行學(xué)習(xí),VPA才能顯著改善性能。同樣可以看到用戶與Siri進(jìn)行溝通時,提供的細(xì)節(jié)越多,Siri可以提供的服務(wù)也越具個性化。這樣的結(jié)果是VPA變得更具前瞻性,可以持續(xù)關(guān)注用戶潛在的可能需求,甚至在對話開始前就已經(jīng)預(yù)測到用戶的需求。

  為展示新一代VPA的能力,現(xiàn)在讓我們假設(shè)一段對話,真實使用者名為Lisa,VPA購物助理名為Nina,背景時某一天Lisa想買一個皮包:

  L:Nina,我想買一個新皮包。

  N:好啊!那你是想買上次那個Michael Kors牌子的么?

  L:行,我喜歡Michael Kors牌,但是這次預(yù)算的上限是400元。

  N:上次你是從Nordstrom購買的,Nordstrom現(xiàn)在仍然銷售Michael Kors牌皮包,并且同時還有其他品牌款式,或許你會喜歡。

  L:嗯,我覺得Michael Kors的一款巧克力色的包不錯,標(biāo)價329元,你發(fā)現(xiàn)其他商家有優(yōu)惠價格么?

  N:我發(fā)現(xiàn)確實有其他零售商銷售的這款皮包標(biāo)價只有310元,但退換貨政策不如Nordstrom的好。

  L:那好,我們就去Nordstrom買吧。

  Lisa希望Nina具備所有關(guān)于購物方面的知識與能力,并且能夠利用這些知識協(xié)助她進(jìn)行正確的選擇。而VPA也將從這段對話中進(jìn)行學(xué)習(xí),同時會保留這段對話作為歷史紀(jì)錄,為將來的購買活動做準(zhǔn)備。

  正因為VPA的學(xué)習(xí)行為,它將變得越來越有效率。這種自行學(xué)習(xí)的能力經(jīng)常被提及,卻很少被實現(xiàn)。“在自然界中學(xué)習(xí)”(Learning in the wild)這一古老的夢想也剛剛開始成真,因為實現(xiàn)真正具備極強適應(yīng)性的VPA非常困難。

  當(dāng)然,隨著Nina的能力不斷完善,Lisa越來越信任VPA。VPA這種應(yīng)用不僅高度個性化,還將具備保護(hù)個人信息的能力。對于一個VPA,信任較安全和隱私而言更加屬于核心需求,下一代VPA將會在這方面顯著增強。

  這一切是否聽起來十分完美?幸運的是,一個能夠與用戶真正進(jìn)行深層次和細(xì)節(jié)溝通的VPA不再只是科學(xué)幻想。SRI正在進(jìn)行這些方面的研究,我們和研究伙伴正全力以赴努力讓這些早日實現(xiàn)。

  至于VPA是否會增進(jìn)人類的智力水平這個古老的爭議,可以追述到發(fā)明鼠標(biāo)的年代,鼠標(biāo)的發(fā)明者Doug Engelbart在1962年撰文闡述如下:

  增進(jìn)人類智力的意思是提高人類理解復(fù)雜問題的能力、為自己獨有的需求提供解決方案、并最終解決問題。

  我們相信VPA正是這方面的代表,VPA是目前我們能夠看到的協(xié)助人類和機(jī)器交流的最佳的方式,并將最終改變?nèi)祟惪创龣C(jī)器的態(tài)度,正如Doug Engelbart50年前發(fā)明鼠標(biāo)之后對世界產(chǎn)生的深遠(yuǎn)影響一樣。

TechWeb.com.cn



相關(guān)閱讀:
識別率超過90% 訊飛發(fā)布新一代語音云平臺 2012-03-26
Spansion整合Nuance語音識別提升產(chǎn)品反應(yīng)速度 2012-03-26
科大訊飛新一代“語音云”發(fā)布暨語音開發(fā)者大會舉行 2012-03-23
Nuance Research:消費者喜愛的移動應(yīng)用功能有哪些? 2012-03-22
Siri力推日文語音服務(wù) 卻被DoCoMo搶先一步 2012-03-14

熱點專題:  語音合成TTS 語音識別ASR