科大訊飛面向手機(jī)的語音合成應(yīng)用方案
2006/04/05
隨著信息社會的到來,以手機(jī)為代表的移動信息終端在人們生活中的普及率越來越高,同時體積和屏幕也越來越小。人們經(jīng)常在走動或駕車等移動狀態(tài)下使用,傳統(tǒng)的圖文顯示和按鍵操作在便捷性、人性化等方面的不足越來越成為人們關(guān)注的焦點(diǎn)。
針對目前我國手機(jī)市場迫切需求,科大訊飛通過具有自主知識產(chǎn)權(quán)的智能語音技術(shù)讓手機(jī)變得能聽會說,為其操作界面帶來革命性提升。這里我們將在現(xiàn)有的手機(jī)功能以及成熟的語音合成技術(shù)的基礎(chǔ)上,介紹一些手機(jī)平臺上的語音應(yīng)用方案,為希望在手機(jī)上增加語音應(yīng)用的手機(jī)設(shè)計(jì)商和手機(jī)制造商提供方案參考,同時也為手機(jī)方案設(shè)計(jì)及技術(shù)開發(fā)人員進(jìn)行手機(jī)功能定義和設(shè)計(jì)時提供基本的流程設(shè)計(jì)參考。
一、功能介紹
1、來電播報
功能描述:當(dāng)有新來電到達(dá)的時候,用語音播報來電號碼或者來電人姓名,提示用戶接聽來電。
適用人群:業(yè)務(wù)繁忙的商務(wù)人士、駕駛員、家庭主婦、視力不濟(jì)的老年人。
典型使用場合:
- 駕車途中:在駕駛車輛的時候,操作手機(jī)不便,同時也有危險性。語音來電提醒功能可以避免操作和瀏覽手機(jī)就可獲知來電號碼,增強(qiáng)行車的安全性。
- 在家中做家務(wù)時,雙手一般都是忙碌的,接聽電話不方便。語音來電播報可以讓用戶判斷是否是重要來電要接聽,不需要為無關(guān)緊要的電話而打擾手頭工作。
- 辦公室中:根據(jù)調(diào)查,大多數(shù)人在工作的時候,喜歡把手機(jī)放置在桌子上,而不是隨身攜帶。來電播報可以提高對電話處理和接聽效率。
2、消息到達(dá)提醒
功能描述:當(dāng)有新的消息到達(dá)時(如短信、彩信、郵件等消息),可以將該消息的發(fā)送人或發(fā)送號碼播報出來,提醒用戶查看新到消息,同時也可以通過設(shè)置使其將短信內(nèi)容播報出來。
適用人群:業(yè)務(wù)繁忙的商務(wù)人士、駕駛員、家庭主婦、學(xué)生、老年人等。
典型使用場合:駕車途中、辦公室工作和做家務(wù)等場合。
3、日程安排提醒
功能描述:當(dāng)日程表中有事件發(fā)生需提醒用戶處理時,通過語音把日程安排的內(nèi)容播報給用戶。
適用人群:業(yè)務(wù)繁忙的商務(wù)人士、學(xué)生、文秘人員、企業(yè)的高層管理人員和政府公務(wù)員等經(jīng)常需要安排行程計(jì)劃的人員。
4、號碼輸入提示
功能描述:用戶輸入電話號碼的時候,每次點(diǎn)擊輸入一個號碼的同時,手機(jī)通過語音將該號碼讀出來。
典型使用場合:燈光昏暗的街道、晚上的郊外、交通工具上或者存在強(qiáng)光干擾視線的環(huán)境。
5、通話記錄播報
功能描述:播報當(dāng)前未接來電和已接電話等信息。
適用人群:視力不濟(jì)的老年人,眼睛容易疲勞的人士和記憶力不佳的人士。
6、短消息播報
功能描述:可以將收件箱中短信的發(fā)送人(或號碼)、發(fā)送時間和短信內(nèi)容等信息朗讀出來。
適用人群:視力不濟(jì)的老年人,眼睛容易疲勞的人士和記憶力不佳的人士。
典型場景:
- 在旅途中,人們?yōu)榱舜虬l(fā)長途旅行的時光,經(jīng)常會選擇給朋友發(fā)送短信聊天,但在行車過程中,在顛簸的狀態(tài)下閱讀手機(jī)屏幕會讓眼睛容易疲倦,使用語音播報就不會有問題了。
- 在節(jié)假日中把親人發(fā)來的短消息播放給一家人聽,可讓全家人都感受到濃濃的親情。
7、電子書內(nèi)容播放
功能描述:用戶在瀏覽電子書內(nèi)容的時候,把電子書的內(nèi)容通過語音朗讀出來。同時,從用戶應(yīng)用性角度出發(fā),設(shè)計(jì)播放、暫停、中止朗讀、選定內(nèi)容朗讀、選頁朗讀等功能,使用戶使用起語音功能來更加得心應(yīng)手。
適用人群:年輕白領(lǐng)、經(jīng)常出差的人士。
典型應(yīng)用:
- 在閑暇時刻閉上眼睛悠然的收聽喜愛的文章,給自己一個放松的機(jī)會;
- 通過"聽書"輕松地度過那漫長的旅途或者上下班時間。
二、面向手機(jī)語音應(yīng)用展望
目前,手機(jī)移動終端上的應(yīng)用將日益豐富,移動運(yùn)營商經(jīng)營的業(yè)務(wù)也日益增多,終端應(yīng)用逐步從單一的傳統(tǒng)手機(jī)應(yīng)用延伸至類似傳統(tǒng)PDA、甚至筆記本電腦等高端移動設(shè)備的應(yīng)用功能,隨著運(yùn)算能力和智能化程度的提高,手機(jī)上需要處理的業(yè)務(wù)和數(shù)據(jù)也日益增多,如何讓用戶能在手機(jī)操作過程中簡便、快捷和靈活地使用各種數(shù)據(jù)業(yè)務(wù),成為難點(diǎn)之一。而通過使用嵌入式語音合成技術(shù),可以讓用戶更方便更直觀的處理各種信息和數(shù)據(jù),比如,使用GPRS功能瀏覽網(wǎng)頁的時候,可以用語音來聽取各種新聞;下載各種數(shù)據(jù)表格之后,手機(jī)可以馬上將表格數(shù)據(jù)用語音方式播報出來。
據(jù)專家預(yù)測,"時尚、情感、娛樂"也將是未來手機(jī)的發(fā)展趨勢。先進(jìn)的語音合成技術(shù)的使用,打造全新的會說話的語音手機(jī)概念,無疑會增強(qiáng)手機(jī)的時尚感。在娛樂方面,如果能在游戲中加入語音技術(shù),可以大大增強(qiáng)游戲的互動性和可玩性。再次,隨著語音合成技術(shù)的進(jìn)一步提升,將來可帶有感情色彩、甚至可具備手機(jī)用戶聲音特征的語音合成系統(tǒng)將逐漸推向市場,手機(jī)進(jìn)行語音播報的時候,可以帶上不同的語氣和感情色彩,甚至可以用親人或自己的語音風(fēng)格來播報信息,使得手機(jī)的語音功能更加的人性化和個性化。
語音合成功能只是語音技術(shù)的一部分,它主要解決了"說"的問題。但是要做到真正意義上的人機(jī)交互功能,還需要結(jié)合語音識別等其他語音技術(shù)。與語音識別技術(shù)相結(jié)合之后,手機(jī)將具備真正的"能聽會說"的能力,這樣,可以極大的克服傳統(tǒng)手機(jī)輸入、輸出設(shè)備受限的瓶頸問題,使手機(jī)具備更強(qiáng)的易用性?拼笥嶏w公司憑借著在語音技術(shù)上的深厚積累和長期市場經(jīng)驗(yàn),在嵌入式語音技術(shù)方面投入了極大的研發(fā)和設(shè)計(jì)力量,將持續(xù)不斷的推出語音合成、語音識別、語音編解碼等成熟的技術(shù)產(chǎn)品和應(yīng)用方案。
科大訊飛公司供稿 CTI論壇編輯
相關(guān)鏈接: