手機里的語音技術(shù),你了解嗎?
手機嵌入式語音應(yīng)用介紹
2006/02/24
隨著人們對各種終端設(shè)備智能化程度要求的提高,語音技術(shù)正發(fā)揮著越來越重要的作用。語音技術(shù)的應(yīng)用就相當(dāng)于給終端設(shè)備裝上了嘴巴和耳朵,使得終端設(shè)備成為一個能說會道又聽話的智能設(shè)備。
隨著經(jīng)濟的發(fā)展,人們生活水平的提高,手機的使用日漸普及,并且人們對手機的娛樂性和智能化要求越來越高,給語音技術(shù)在手機上的應(yīng)用帶來了機遇。語音技術(shù)的應(yīng)用將使手機變得更加智能,更加好玩,并且使用更加方便。這無疑會成為手機的一大特色,受到消費者們的喜愛,并且會成為一種流行趨勢。
當(dāng)手機具有語音合成功能時,我們的手機就可以"說話"了。
當(dāng)有來電時,如果來電號碼在我們的通訊錄里有,手機就可以播報出來電者的姓名,如果通訊錄里沒有,手機就可以播報出電話號碼。并且,如果預(yù)先讓手機具有識別區(qū)號和手機號所屬地區(qū)的功能,那么它還可以變得更智能一些,可以播報出是哪個地方的誰來的電話。
當(dāng)有新的短消息到達時,手機可以為我們讀出短信息的內(nèi)容和來信人的姓名,當(dāng)然為了保護我們的隱私,也可以設(shè)置不讓手機自動閱讀短消息,在我們讓它讀的時候它才讀,通過一個按鍵便可以控制。
顯然,如果在駕車狀態(tài)下使用語音智能手機,那么將達到駕車、通訊兩不誤的效果,并且提高了駕駛的安全性。
另外,我們也可以把鬧鈴的鈴聲設(shè)置成個性化的語音提醒,例如可以讓手機說:"懶蟲,起床了",等所有您想讓手機喊您起床時說的話,而且可以天天更換,您所要做得只是輸入您想手機說的話的內(nèi)容,這樣,連您起床時都可以不用聽老套的鬧鈴的鈴聲了,而是聽您想聽的話。同時,日程表也可以用語音合成讀出來,當(dāng)有日程提醒時,我們不用看手機,就知道該干什么了。
當(dāng)手機具有識別功能后,我們的手機就變得"聽話"了。
當(dāng)我們需要查找某人的電話號碼時,我們再也不用不停地按手機按鍵來查找了,只需對著手機說出我們要找的人的名字,手機便可以自動幫我們找出要查找的人的所有的電話號碼,并且用語音提示您當(dāng)前所處的是哪個號碼。
要打電話嗎,同樣簡單,對著電話喊一下就行了,同時手機還會給您反饋,提醒您撥打的是哪個號碼,防止您撥錯了可以及時停止操作。另外,還可以用語音的方式實現(xiàn)很多常用的功能,如我們可以對著手機說:打開通訊錄,打開收信箱,打開系統(tǒng)設(shè)置等等很多命令,手機接收到之后便可以執(zhí)行相應(yīng)的命令。這樣可以大大節(jié)省您進行復(fù)雜的按鍵操作所需要的時間。
目前,市場已經(jīng)有較多具有語音功能的手機,特別是語音識別方面,已經(jīng)有很多手機應(yīng)用了這種功能。而在合成方面則只有比較少數(shù)的機型才具有,當(dāng)然還有一些公司推出了一些既具有合成功能又具有識別功能的智能手機。如磨托羅拉A728,A760,A780等既具有合成功能又具有識別功能,還有很多產(chǎn)品具有識別功能,諾基亞很多產(chǎn)品具有識別功能,三星也推出了多款具有合成功能的手機和具有識別功能的手機。
我們可以預(yù)期,隨著人們對手機娛樂性和智能化的不斷追求,同時在這些大型手機制造商的帶領(lǐng)下,語音技術(shù)的應(yīng)用必將成為手機行業(yè)的一個應(yīng)用潮流。
目前,國內(nèi)提供語音技術(shù)的有很多家,其中以安徽中科大訊飛在中文語音技術(shù)方面具有最好的效果。并且在手機上已經(jīng)有較多的成功應(yīng)用案例。
據(jù)了解,安徽中科大訊飛信息科技有限公司是于1999年6月在國家智能計算機研究開發(fā)中心、中國科學(xué)技術(shù)大學(xué)人機語音通信實驗室的基礎(chǔ)上組建,專注于語音技術(shù)的核心研究及其產(chǎn)業(yè)化的一家高新技術(shù)企業(yè)。經(jīng)過幾年的發(fā)展,該公司已經(jīng)成為中國產(chǎn)業(yè)化實體中,在語音技術(shù)方面基礎(chǔ)研究時間最長、資產(chǎn)規(guī)模最大、歷屆評測成績最好、專業(yè)人才最多的公司,并且獲得了多項中文語音研究和產(chǎn)業(yè)界最高榮譽,2003年獲得"國家科技進步二等獎"和"中國十大杰出青年科技創(chuàng)新獎",2005年獲得05年"國家信息產(chǎn)業(yè)重大技術(shù)發(fā)明獎"獎。
經(jīng)過多年研究,該公司在以往技術(shù)的基礎(chǔ)上,于2005年初推出了具有更好的合成效果的嵌入式語音合成軟件InterSound 4.0KT。
InterSound 4.0KT語音合成軟件是業(yè)界最小的輕量級中文連續(xù)語音合成軟件。系統(tǒng)針對有一定處理能力,但資源受到嚴格限制的嵌入式環(huán)境。它在合成效果上更加自然和流暢,已經(jīng)接近傳統(tǒng)大語料庫語音合成算法的效果;它集成了智能的文本分析算法,將規(guī)則和統(tǒng)計等處理方法進行了有機的結(jié)合,具備了較強的分詞、多音字識別、姓氏識別、韻律環(huán)境預(yù)測能力,以及自動識別和處理日期時間、數(shù)值金額、電話號碼等文本的能力,并能通過添加外部規(guī)則的方式,快速增加對新的文本格式的支持能力。按照5分制計算,其合成的自然度可以達到4.2分,可懂度為98%,節(jié)奏正確率達到95%。
InterSound 4.0KT在系統(tǒng)架構(gòu)、代碼實現(xiàn)、資源結(jié)構(gòu)等方面進行了大量的研究和優(yōu)化工作。整體系統(tǒng)架構(gòu)的設(shè)計緊湊高效;系統(tǒng)開發(fā)過程中,在合成算法、數(shù)據(jù)結(jié)構(gòu)、代碼編寫等不同層面都進行了深入優(yōu)化;庫資源的結(jié)構(gòu)設(shè)計也非常精巧,目前的庫資源的尺寸已經(jīng)低于1.2M字節(jié),同時提升了資源訪問的效率。最終的優(yōu)化結(jié)果,使得InterSound 4.0KT系統(tǒng)在存儲資源的需求方面較傳統(tǒng)的合成系統(tǒng)有了極大的降低,但整體的效果卻有了顛覆性的提升。
InterSound 4.0KT系統(tǒng)具有很強的移植性,已經(jīng)在以下的操作系統(tǒng)下實現(xiàn)移植:Linux,WinCE,Omap,Smartphone,PPC等等,并成功的在Arm、TI、Epson、Philips等硬件平臺上實現(xiàn)了移植。Intersound 4.0KT充分考慮了手機的應(yīng)用環(huán)境,滿足了在手機的嵌入式環(huán)境下的要求,使得實現(xiàn)手機里的語音合成技術(shù)已經(jīng)不再成為困難,并且合成效果將令用戶非常滿意,增加了手機的個性化特點。
科大訊飛的目標是以最好的產(chǎn)品、最優(yōu)的服務(wù)、最合適的應(yīng)用全面推動語音產(chǎn)業(yè)的發(fā)展,做最專業(yè)的中文語音應(yīng)用整體解決方案提供商。
科大訊飛公司供稿 CTI論壇編輯
相關(guān)鏈接: