2011/08/08
一位叫趙行德的人在豆瓣上發(fā)了一個消息,談到他在和聯(lián)想產品經理聊天,了解到了一個手機應用背后牛逼的故事。這個故事顯然把他擊倒了。而我,也被擊倒了。
先說說故事的引子樂助理 360,這是一個很省心的日程應用。
來舉個例子吧。這個應用,有三種方式為用戶設定手機日程,語音、文字和直接的電話。你對著手機說:后天 9 點飛北京,然后上傳,幾分鐘之內,iPhone 日歷就增加了一條在 9 點“飛北京!”的日程。文字呢?當然更好理解,你再也不需要在手機的日程管理軟件中反復輸入了,直接在這個應用輸入你的計劃,和短信一樣發(fā)送,隨后,你的日程也如你所愿就自動添加到系統(tǒng)日程了。
你會發(fā)現它相當方便。智能設備,特別是全觸屏的手機,輸入一直是很多使用者的心頭痛。語音可以幫助用戶方便地跨越這類門檻。不過,這類應用的成本還不僅僅在于單純的輸入,而是在于它需要你進行太多的選擇。一個標準的場景是,拿出 iPhone,用拇指掃開屏幕,找到日程應用,然后填充一堆的表單區(qū)域。完成一個簡單的日程,也需要點擊很多很多次,耗費頗長時間。喜歡 GTD 的人,也許會樂于享受這種編輯歸類過程,但是對于普通人來說,這種體驗實在太差了。
且慢,還不光是你簡單動動嘴皮的問題。你會發(fā)現它非常精確,它很聽話,它很懂你,它支持所有的自然語義。這可不簡單啊!
為何語音識別可不簡單?它必須要解決各種場合下精確的識別處理問題。一方面,它需要對所識別語言規(guī)律和語句的高度理解,另外,它還需要解決各種噪音和干擾情況下(這是語音識別環(huán)境的常態(tài))的識別問題。語音識別技術在商業(yè)和人機交互上一直以來缺乏足夠的表現,正是由于無法精確的識別人類語音的表達。蘋果去年 4 月耗巨資收購 Siri,看中的就是它就是可以很準確地識別人們的語音,針對人們提出的問題進行回答。人們認為,這個在語音識別領域浸淫已久的 Nuance 開發(fā)的語音技術,有可能讓蘋果開啟下一扇人機交互的大門。
但是一個來自聯(lián)想的應用,解決了這個問題?是聯(lián)想在和科大迅飛搞的語音云合作項目?科大迅飛是聯(lián)想投資的一個項目,上市前就獲注資數千萬元,而 2010 年底科大迅飛發(fā)布語音云系統(tǒng)時,柳傳志也親自出席了,這不得不讓你有這樣的聯(lián)系聯(lián)想。
反正我信了。馬上就要和朋友感慨現在科技的日新月異了,CPU 已經可以代替人腦,云計算吧!腦海浮現出機器人統(tǒng)治世界的場景。
“人工”智能
然后,趙行德告訴你“讓人崩潰”的真相:它背后的故事是——它的“高科技”,它的精確,它的“人工智能”,就在于,它真的是人工的!——他們在遠端用人聽這些語音消息,然后輸入進去 ……
我不知道這個消息是否屬實,但是我在測試中發(fā)現,它確實有很強的“人工”跡象。一是我試用這個軟件的時候,使用了粵語,然后這個應用就在遠端“死機”了——日程記錄并沒有自動推送過來,聽聞說四川話是 ok 的。二是上傳了語音后,推送日程的處理時間差別蠻大,感覺不太象是計算機即時處理的。三是精確度確實很高,在不同噪音環(huán)境下和不同腔調下,效果都相當不錯,很難讓你相信這是機器識別的。
不過,這只算一個八卦消息,真實的情況仍然待驗證,特別是語音識別系統(tǒng)和呼叫中心的結合也有商用的案例。簡單粗暴的直接判斷它是完全人工的不太合適。但是真正有趣的,卻是這個八卦故事所折射出的“創(chuàng)新”智慧。
初看,這個故事包括后續(xù)的回復都讓人忍俊不禁,但是,回頭一想,也許這真是一個非常棒的創(chuàng)新,一個非常聰明的商業(yè)模式的創(chuàng)新。
為何商業(yè)創(chuàng)新需要高科技呢?商業(yè)創(chuàng)新的意義在于更小的成本創(chuàng)造更大的價值。據說這個服務主意還是聯(lián)想呼叫中心的人想出來的。它利用到了現有的成熟模式,并在這個成熟的商業(yè)模式上派生出了另外一種創(chuàng)新價值。
這個服務的“極其牛逼”之處,在于它把一個復雜的問題徹底的簡單化了——而簡單化,確實牛逼的商業(yè)模式最為寶貴的特質。你不會看到真正可行的商業(yè)模式是復雜的,讓人看不懂的。
它用非常簡單的方法(人工聽),解決了語音識別精確度問題,解決了輸入問題(遠端人工編輯推送),解決了隨時隨地服務的問題(24小時的呼叫中心)——至少,讓語音識別達到了非常好用的程度。它用超低廉的成本,完成了“高科技”很難做到的效果。它還是可擴展的。scalable 這個詞在互聯(lián)網模式中很熱呢。
而高科技的云計算,本質和人腦簡單集合處理并無不同,也許只是成本問題?萍急緛硎且档统杀镜,如果在一個可以用人工比科技更好的降低成本的場合,為何不使用人工呢?
“土而奇機器人”
這種智能眾包這也并非是聯(lián)想呼叫中心的獨創(chuàng)。
亞馬遜就 2005 年推出一個叫土耳其機器人(Mechanical Turk)的服務,其理念,就是讓人力眾包來完成電腦力有不逮的細碎、精確的智能工作。這種眾包讓計算機調用人的智慧智能,把人和電腦的角色顛倒過來,讓人成為任務的完成者,而電腦成為任務的分配者。起名叫土耳其機器人本身也映射了這個項目的性質:
這個名字源自于臭名遠揚的能下象棋的“自動裝置”,它是匈牙利男爵沃爾夫岡·馮·肯佩倫(Wolfgang Von Kempelen)1770年建造的。這個木制機器外形像一個坐在大機箱前的土耳其魔法師,它能自動而快速地下象棋,用復雜的齒輪和杠桿系統(tǒng)來移動棋子。在維也納皇宮的首次表演中,它就迅速擊敗了對手Cobenzl伯爵,讓在場的皇室成員看得十分高興。從此關于這個驚人聰明的機器人迅速聞名于世,于是肯佩倫帶著它在歐洲各地表演,擊敗了一系列著名的挑戰(zhàn)者,包括拿破侖和本杰明·富蘭克林。直到幾年之后,這個騙局才被揭穿。原來機箱里藏了一名象棋大師,他用一個磁鐵系統(tǒng)來跟蹤對手的舉動并移動自己的棋子,這個人實際是在模擬一種人工智能。(摘錄自 比特云 )
這也是我們笑稱它為“土”而“奇”機器人的來歷。
可行性?
理論上的問題解決了,我們再來看看現實的商業(yè)問題。這得多大的人工成本?!別著急,看看趙行德的初步概算:
我測算了一下,平均每個活躍用戶每天提交0.5條語音,每個人每分鐘處理3條語音,每天工作7小時,可以服務2500個活躍用戶,100人的數據中心可以服務25萬活躍用戶。
如果把數據中心建在西部貧困地區(qū),月薪800元估計就足夠了,25萬工資成本才8-10萬,100人的數據中心,每人2500元的電腦,投資25萬,數據中心投資30萬元,辦公家具設備5萬元,偏遠貧困地區(qū)租個辦公室,月租不到5000元,100人工資8萬元,寬帶月租2萬元,10個產品開發(fā)人員,每月5萬元,5個打雜行政人員,1萬元。
總投資60萬元,每月運營成本16.5萬,就能辦出給至少25萬活躍用戶,100萬注冊用戶服務。
可行嗎?
對的,它很土,很奇異,但是,它靠譜(it work),它可行。這個“土而奇”機器人很棒。
這不正是商業(yè)創(chuàng)新的意義嗎?
目前,這個服務是免費的。而且所定義的日程服務類型所限,用戶群也許并不算很大,每天下載量據說是 2000。但是它顯然是一個可行的商業(yè)模式,同樣的思路,你也許可以把它擴展到其他的移動互聯(lián)網服務領域,有拾音功能的移動設備天然就是一個命令錄入裝置,天然就是一個可以收集多樣服務需求進行集中處理的終端,智能手機已經為很多“云計算”的概念提供了堅實的應用基礎。
你會為這樣的管家類服務掏錢嗎?至少,我會的。我覺得,與其把時間浪費在各種糾結上,還不如出錢讓自己在零碎的時間發(fā)發(fā)呆。
這正是服務的意義呢。
愛范兒