科大訊飛語音技術(shù)在導(dǎo)航行業(yè)應(yīng)用方案
2009/03/30
前言
語音合成(Text To Speech),簡稱TTS技術(shù),它涉及聲學(xué)、語言學(xué)、數(shù)字信號處理技術(shù)、多媒體技術(shù)等多個學(xué)科技術(shù),是中文信息處理領(lǐng)域的一項前沿技術(shù)。解決的主要問題就是如何將文本狀態(tài)的文字信息轉(zhuǎn)化為可聽的聲音信息。使以往只能用眼睛看的文字信息,也可以用耳朵來聽。通俗地說,就是讓機器開口說話的技術(shù)。
語音識別(Speech Recognition),簡稱SR技術(shù),語音識別是一門交叉學(xué)科,語音識別正逐步成為信息技術(shù)中人機接口的關(guān)鍵技術(shù),語音識別技術(shù)與語音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤,通過語音命令進行操作。語音技術(shù)的應(yīng)用已經(jīng)成為一個具有競爭性的新興高技術(shù)產(chǎn)業(yè)。與機器進行語音交流,讓機器明白你說什么,這是人們長期以來夢寐以求的事情。語音識別技術(shù)就是讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)。
如今,車載導(dǎo)航產(chǎn)品已經(jīng)逐步從早期的車載GPS設(shè)備,向集成電子地圖、路徑智能規(guī)劃、實時信息服務(wù)于一體的綜合化個人信息設(shè)備的方向演進。車載導(dǎo)航產(chǎn)品的智能化、人性化已經(jīng)變?yōu)橐粋重要的發(fā)展趨勢,語音與車載導(dǎo)航產(chǎn)品的各種應(yīng)用和功能相結(jié)合,將能很好的提升車載導(dǎo)航系統(tǒng)的可操作性,極大的提高車載導(dǎo)航系統(tǒng)的智能化程度,給車載導(dǎo)航產(chǎn)品帶來更為人性化的表現(xiàn)。
車載導(dǎo)航產(chǎn)品中的語音應(yīng)用主要是針對車載導(dǎo)航產(chǎn)品屏幕小和經(jīng)常處于駕駛狀態(tài)的特點,將原本需要使用手操作按鍵的使用方法利用最自然最習(xí)慣的說話方式代替;把各種傳統(tǒng)上需要同用戶交互的信息(道路信息,駕駛導(dǎo)航信息,POI信息,實時路況等)轉(zhuǎn)化為語音,使用戶通過語音這種人類自然的交流方式獲取這些信息,從而達(dá)到解放用戶的雙手和眼睛、提高駕駛安全性的作用。
- 在與原有車載導(dǎo)航功能相結(jié)合,增加語音功能時,盡量保持車載導(dǎo)航產(chǎn)品上原有的用戶界面不變,減少開發(fā)工作量。采用附加應(yīng)用層界面的方式添加語音合成和語音識別功能。
- 對原有車載導(dǎo)航產(chǎn)品的硬件設(shè)計和模具做盡量少的修改要求,盡量不增加硬件成本。
- 所有用戶語音應(yīng)用的內(nèi)容都可以進行設(shè)置,讓用戶選擇是打開還是關(guān)閉。
功能描述
本方案分析了車載導(dǎo)航產(chǎn)品中原有的功能與語音合成技術(shù)和語音識別技術(shù)的各種可能結(jié)合點,總結(jié)出以下一些語音應(yīng)用功能點,以圖表方式簡列如下:
POI包含的類別比較多,包括:景點,加油站,餐館,住宿,商場,娛樂設(shè)施,政府機關(guān),教育文化,金融,醫(yī)療等。下面以POI中的加油站和餐館為例介紹:
功能描述:
當(dāng)用戶需要查詢附近的加油站時,用戶可以在按下識別鍵并聽到識別系統(tǒng)啟動的提醒聲音后,用語音方式給出“附近加油站”命令即可查詢附近加油站。在使用查詢功能得到以距離從小到大排序的查詢結(jié)果列表后,可以通過簡單的按鍵選擇列表,光標(biāo)默認(rèn)處于距離最近的那個結(jié)果上,系統(tǒng)默認(rèn)會播報出來。當(dāng)光標(biāo)移到某個結(jié)果上時,系統(tǒng)自動讀出該加油站的名稱和距離等信息,供用戶選擇。當(dāng)用戶選擇了某個結(jié)果,我們可以再次利用語音命令方式將其設(shè)為導(dǎo)航的目的地或者途經(jīng)地。
設(shè)計目的:
傳統(tǒng)的POI查詢一般使用多層界面,需要用戶進行多次點擊和選擇操作才可以得到查詢結(jié)果列表。而本功能利用語音識別來減少操作步驟,提高操作效率。
典型使用場合:
1.駕駛和行程計劃過程:在駕駛車輛前,用戶一般會檢查車內(nèi)還有多少油,如果剩油不多,用戶此時就需要找到一個最近的加油站去加滿油,此時便需要使用該功能。
2. 駕駛過程中:在駕駛車輛的時候,當(dāng)用戶發(fā)現(xiàn)油量不足,而駕車過程中操作車載導(dǎo)航產(chǎn)品不便,同時也有危險性。通過該功能不用大量復(fù)雜的手動操作就能將查詢結(jié)果中用戶選擇的加油站設(shè)為導(dǎo)航的目的地或者途經(jīng)地,給用戶帶來安全,快捷的享受。
功能描述:
當(dāng)用戶需要查詢附近的餐館時,用戶可以在按下識別鍵并聽到識別系統(tǒng)啟動的提醒聲音后,用語音方式給出“附近餐館”命令即可查詢附近餐館。在使用查詢功能得到以距離從小到大排序的查詢結(jié)果列表后,可以通過簡單的按鍵選擇列表,光標(biāo)默認(rèn)處于距離最近的那個結(jié)果上,系統(tǒng)默認(rèn)會播報出來。當(dāng)光標(biāo)移到某個結(jié)果上時,系統(tǒng)自動讀出該餐館的名稱和距離等相關(guān)信息,供用戶選擇。當(dāng)用戶選擇了某個結(jié)果,我們可以再次利用語音命令方式將其設(shè)為導(dǎo)航的目的地或者途經(jīng)地。
設(shè)計目的:
傳統(tǒng)的POI查詢一般使用多層界面,需要用戶進行多次點擊和選擇操作才可以得到查詢結(jié)果列表。而本功能利用語音識別來減少操作步驟,提高操作效率。
典型使用場合:
駕駛和行程計劃過程和駕駛過程中。
功能描述:
用戶在需要了解當(dāng)前位置時,只需按下識別鍵并在聽到識別系統(tǒng)啟動的提醒聲音后,說出“當(dāng)前位置”,系統(tǒng)在識別該命令后便可以用語音播報方式讀出當(dāng)前的位置信息。
設(shè)計目的:
當(dāng)用戶在陌生的城市/地區(qū)或者在行駛過程中,往往會有知道當(dāng)前位置的需求,車載導(dǎo)航產(chǎn)品上GPS定位系統(tǒng)的普及為該功能提供了信息來源。通過語音命令方式而不是傳統(tǒng)的多次點擊和菜單選擇,該功能可以更好的滿足用戶知道當(dāng)前位置的需求。
典型使用場合:
用戶陌生的城市/地區(qū)和駕駛過程中。
應(yīng)用設(shè)計場景說明:
應(yīng)該添加一個設(shè)置項,讓用戶選擇地名播報時是否把地名和經(jīng)度緯度信息一起播報出來。
功能描述:
當(dāng)用戶要開始導(dǎo)航過程時,只需按下識別鍵并在聽到識別系統(tǒng)啟動的提醒聲音后,說出“導(dǎo)航到<我的地標(biāo)>”或“回家”或“回公司”,系統(tǒng)在識別該命令后,便會將對應(yīng)的地名作為導(dǎo)航的目的地。(<我的地標(biāo)>表示地標(biāo)文件夾中所包含的文件的名字,例如“科大訊飛”“市政府”“黃山路”,其中的地標(biāo)文件用戶可以自由添加,也可以自由命名。)
設(shè)計目的:
當(dāng)用戶需要開始導(dǎo)航時,因為大多數(shù)用戶的大多數(shù)導(dǎo)航過程總是在少數(shù)幾個已知地點之間的,所以可以將那幾個地點標(biāo)記為地標(biāo),通過目的地快捷設(shè)定便可以很方便的設(shè)置導(dǎo)航目的地,開始導(dǎo)航過程。這樣做可以極大的減少用戶的重復(fù)輸入和操作。
典型使用場合:
用戶長期居住的環(huán)境中。
功能描述:
這個功能是配合“目的地快捷選擇”的一個功能,也就是說首先要使用“保存地標(biāo)”功能保存過的地標(biāo)才可以在“目的地快捷選擇”功能中通過“導(dǎo)航到<×××>”指令來將其設(shè)為目的地使用。(“×××”表示已保存的地標(biāo)的名稱)。
1. 當(dāng)用戶處于無GPS連接的狀態(tài)時,用戶可以進入地圖模式,先在地圖上先找到自己可能會頻繁前往的一個地點,然后用光標(biāo)選中該地點,用戶在按下識別鍵并在聽到識別系統(tǒng)啟動的提醒聲音后,說出“保存地標(biāo)”,然后該地點就會被保存為一個地標(biāo),該地標(biāo)的名稱可以自定義更改。如果用戶有多個地點需要保存,則重復(fù)以上步驟。
2. 當(dāng)用戶處于GPS正常連接狀態(tài)下時,當(dāng)用戶駕駛到一個他認(rèn)為他以后可能會經(jīng)常去的一個地方附近,他想把該地點保存為地標(biāo)。用戶在按下識別鍵并在聽到識別系統(tǒng)啟動的提醒聲音后,說出“保存地標(biāo)”,然后該地點就會被保存為一個地標(biāo),該地標(biāo)的名稱可以自定義更改。如果用戶有多個地點需要保存,則重復(fù)以上步驟。
設(shè)計目的:
該功能可以記憶用戶經(jīng)常會到的地點,保存其地點信息作為地標(biāo),而一旦要將某個已保存的地點作為目的地,便可以使用“目的地快捷選擇”功能將其設(shè)為目的地。這樣便達(dá)到了減少用戶重復(fù)輸入常用地點名稱,減少機器地點搜索次數(shù),節(jié)省用戶的精力和時間等目的。
典型使用場合:
普通狀態(tài)下和駕駛過程中。
應(yīng)用設(shè)計場景說明:
應(yīng)該添加一個設(shè)置項,讓用戶選擇默認(rèn)情況下保存的地標(biāo)的命名規(guī)則,例如(1)附近道路(2)附近城鎮(zhèn)。
功能描述:
用戶在按下識別鍵并在聽到識別系統(tǒng)啟動的提醒聲音后,說出“結(jié)束導(dǎo)航”,系統(tǒng)在識別該命令后,自動結(jié)束現(xiàn)有導(dǎo)航。用戶可以再次利用“目的地快捷選擇”等功能再次開始導(dǎo)航。
設(shè)計目的:
該功能的設(shè)計目的是在駕駛導(dǎo)航過程中,某些情況下目的地發(fā)生了改變,此時便需要結(jié)束原導(dǎo)航然后開始新導(dǎo)航過程。
典型使用場合:
駕駛過程中。
系統(tǒng)設(shè)置
在某些場合下,用戶不方便使用語音播報等功能。因此,系統(tǒng)設(shè)置菜單中,需要增加一些針對語音功能的設(shè)置選項,讓用戶可以選擇是否打開或者關(guān)閉某些不需要的語音功能。
純語音合成菜單設(shè)置
車載導(dǎo)航產(chǎn)品語音應(yīng)用展望
隨著訊飛嵌入式語音識別技術(shù)的不斷發(fā)展,將來可以實現(xiàn)更多與導(dǎo)航實際應(yīng)用結(jié)合更為緊密的功能,例如“POI語音模糊查詢”,“交叉路口語音模糊查詢”等。
隨著車載導(dǎo)航產(chǎn)品與其他通信網(wǎng)絡(luò)的互聯(lián)互通,以及城市級信息中心的建設(shè),語音技術(shù)可以廣泛的應(yīng)用在實時新聞播報,實時路況播報等功能之中。
科大訊飛
相關(guān)鏈接: