當用戶對iPhone說話后,語音將被立即編碼,成為一個壓縮的數字文件,其中包含著所有有用的信息。這一信息將通過互聯(lián)網服務提供商(ISP)的網絡被發(fā)送至云計算服務器,而服務器中的模塊將識別用戶所說的內容。
與此同時,用戶的語音將在手機端被識別。安裝在手機中的語音識別器將與云計算服務器通信,了解指令是否適合在本地被處理。用戶的指令可能要求手機播放一首歌曲,而另一些指令則有可能需要手機連接至網絡,尋求進一步的幫助。如果語音識別器認為,手機內部模塊足以處理用戶的指令,那么將會告知云計算服務器,不再需要服務器的支持。
根據用戶的聲調和語序,服務器將對語音進行靜態(tài)對比,了解語音中包含哪些字母。與此同時,本地的語音識別器也將對用戶語音進行靜態(tài)對比。在服務器端和手機端,可能性最高的識別內容將優(yōu)先獲得處理。
此時,識別出的內容已經包含一系列的元音和輔音字母。隨后這些內容將被發(fā)送至一個語言模塊,以評估用戶的語音中包含哪些單詞。根據不同的可信度,計算機將創(chuàng)建一個用戶所說內容的列表。
如果判斷結果具有足夠的可信度,那么計算機將能理解用戶所說的內容,例如發(fā)送短信或查找聯(lián)系人列表中的聯(lián)系人。隨后用戶將會看到手機屏幕上出現(xiàn)所需的內容,而不必手動操作。在這一過程中,如果用戶的語音含義過于模糊,那么計算機將會詢問用戶,例如用戶希望查找的聯(lián)系人是埃里卡·奧爾森(Erica Olssen)還是埃里卡·施密特(Erica Schmidt)。
新浪科技