首頁(yè)>>廠商>>語(yǔ)音識(shí)別與合成>>科大訊飛

語(yǔ)音界面設(shè)計(jì)感想一二

陳焱 2004/08/31

  作為一家專業(yè)的語(yǔ)音及語(yǔ)言技術(shù)提供商,科大訊飛公司專門成立了一個(gè)部門進(jìn)行語(yǔ)音應(yīng)用的嘗試性開(kāi)發(fā)和應(yīng)用跟蹤。用戶體驗(yàn)作為一個(gè)重要的環(huán)節(jié)貫穿每一個(gè)新的CTI應(yīng)用系統(tǒng)從最初的開(kāi)發(fā)設(shè)計(jì)到最后走向最終用戶的全過(guò)程。在眾多的用戶體驗(yàn)中,我們注意到語(yǔ)音界面的設(shè)計(jì)直接影響到了整個(gè)系統(tǒng)的易用性、高效性和用戶對(duì)系統(tǒng)服務(wù)的直觀感受即系統(tǒng)的親切性。在這里,我們將一些關(guān)于語(yǔ)音界面設(shè)計(jì)的感想表述出來(lái)和CTI界的朋友們一同分享,希望更多的CTI系統(tǒng)設(shè)計(jì)者們能共同推動(dòng)人性化語(yǔ)音應(yīng)用環(huán)境的發(fā)展。

  語(yǔ)音界面是用戶為了獲取信息和自動(dòng)應(yīng)答系統(tǒng)進(jìn)行的對(duì)話過(guò)程。畢竟是同機(jī)器的對(duì)話,用戶并不想和機(jī)器聊天,獲取信息才是最終目的。因而,語(yǔ)音界面最基本的要求應(yīng)該是通過(guò)簡(jiǎn)潔易懂的對(duì)話讓用戶最快最準(zhǔn)確的獲取其需要的信息。在此基礎(chǔ)上,再通過(guò)語(yǔ)言的不同表達(dá)方式、配合符合對(duì)話場(chǎng)景的音樂(lè)音效等手段創(chuàng)造出更自然更親切的對(duì)話環(huán)境,使用戶感受到體貼的服務(wù)。

  對(duì)話設(shè)計(jì)中最容易碰到的就是易懂和易用之間的矛盾。有些語(yǔ)音界面用戶要和系統(tǒng)進(jìn)行七八次對(duì)答才能實(shí)現(xiàn)某個(gè)功能,但又覺(jué)得如果不問(wèn)這么多問(wèn)題無(wú)法收集全客戶的查詢條件。這中間的矛盾似乎很難協(xié)調(diào),但設(shè)計(jì)者往往忽略了當(dāng)前所處的語(yǔ)言環(huán)境,而不能通過(guò)最簡(jiǎn)潔有效的對(duì)答獲取信息。結(jié)合所處的語(yǔ)言環(huán)境,可以縮減掉很多冗余的信息,順著對(duì)話的語(yǔ)勢(shì),不僅可以設(shè)計(jì)出簡(jiǎn)短的對(duì)話,也能營(yíng)造出一個(gè)很自然的對(duì)話氛圍,讓使用者減少與機(jī)器對(duì)話的抵觸感。

  在措辭表達(dá)方面,應(yīng)該盡量避免拖沓冗長(zhǎng)的句式,盡量用短句來(lái)表達(dá)意思。若需要表達(dá)信息的句子確實(shí)很長(zhǎng),建議將最有用的信息放在最後。因?yàn)槁?tīng)者對(duì)短句比對(duì)長(zhǎng)句的理解容易;對(duì)聽(tīng)到的最近的語(yǔ)音印象較深。

  語(yǔ)音界面的自然、親切在錄好的提示音而言比較容易實(shí)現(xiàn),只要在發(fā)音人的音色和發(fā)音風(fēng)格上加以注意就可以達(dá)到令人滿意的效果。

  音色的選擇主要考慮的是在電話信道中的傳播效果。過(guò)于低沉或音域窄而尖銳的聲音轉(zhuǎn)成8k或6k的時(shí)候損失較大,一些音頭或音尾會(huì)缺失掉,導(dǎo)致某些提示音在電話中聽(tīng)的不是很清楚。發(fā)音悅耳,擲地有聲的音色,可以讓聽(tīng)眾很輕松的聽(tīng)清內(nèi)容,且不易產(chǎn)生疲勞感。
發(fā)音風(fēng)格的選擇是要根據(jù)語(yǔ)音服務(wù)的內(nèi)容和面向的聽(tīng)眾而定的。娛樂(lè)節(jié)目和信息服務(wù)系統(tǒng)在報(bào)讀風(fēng)格上就有較大的差異,前者需要活潑夸張的語(yǔ)言來(lái)表達(dá),而后者則要清晰、流暢、平穩(wěn)中突出強(qiáng)調(diào)用戶查詢的結(jié)果。體育節(jié)目面對(duì)的是體育愛(ài)好者,需要快節(jié)奏的風(fēng)格,而幼兒教育類節(jié)目面對(duì)的是年齡較小的孩子,要采用親切的循循善誘的發(fā)音風(fēng)格等。因此,在定風(fēng)格的時(shí)候要根據(jù)內(nèi)容和服務(wù)群體樂(lè)于接受的基調(diào)來(lái)確定。

  錄制提示音的時(shí)候,也有一些需要注意的地方。錄音環(huán)境要保持安靜,錄音時(shí),播音員應(yīng)始終維持相同的狀態(tài),最好能夠一次錄完所有的提示音,如果不能一次錄完,則需對(duì)錄音設(shè)備、錄音音量、噪聲范圍等進(jìn)行量化規(guī)定,以防止多次錄音的效果不一致。錄音的數(shù)據(jù)應(yīng)該進(jìn)行降噪、去雜音、能量規(guī)整和預(yù)留靜寂段等處理,以保證使用時(shí)的效果。

  除了錄好提示音之外,語(yǔ)音合成和語(yǔ)音識(shí)別技術(shù)的應(yīng)用,在語(yǔ)音界面的設(shè)計(jì)中也占了重要的部分。合成系統(tǒng)代替了動(dòng)態(tài)信息和海量信息的報(bào)讀,由于是機(jī)器的聲音,很容易讓人產(chǎn)生不自然的感覺(jué)。其實(shí),有些很不自然的合成效果是因?yàn)闆](méi)有能正確的使用合成系統(tǒng)而導(dǎo)致的,并不能體現(xiàn)出合成系統(tǒng)真正應(yīng)該達(dá)到的自然度。那在使用合成系統(tǒng)時(shí)怎樣發(fā)揮出合成系統(tǒng)真正的水平,盡可能提升合成的自然度呢?

  合成文本是合成語(yǔ)音的基礎(chǔ),因此合成文本是否規(guī)范可直接影響到合成的效果。首先文本內(nèi)容中應(yīng)該沒(méi)有錯(cuò)別字,也沒(méi)有不合理的標(biāo)點(diǎn)符號(hào)。因?yàn)闈h語(yǔ)的分詞斷句是憑借字詞和標(biāo)點(diǎn)符號(hào)來(lái)完成的,如果出現(xiàn)錯(cuò)誤就會(huì)導(dǎo)致不合理的停連。其次,合成的文本應(yīng)該是連續(xù)的句子,而不是單獨(dú)的字詞或詞組分別合成再進(jìn)行拼接。有些查詢結(jié)果可能是固定文本和動(dòng)態(tài)文本結(jié)合的,設(shè)計(jì)者會(huì)認(rèn)為固定文本使用提示音效果會(huì)更好,就將固定文本和動(dòng)態(tài)文本剝離開(kāi),單獨(dú)合成動(dòng)態(tài)信息再和固定語(yǔ)音相拼接,導(dǎo)致動(dòng)態(tài)文本合成效果很差,拼接起來(lái)效果就會(huì)更差。例如:"您有500元可消費(fèi)"被分成了"您有"、"500元"、"可消費(fèi)"單獨(dú)合成再拼接的效果就會(huì)不如直接合成"您有500元可消費(fèi)"的效果好。因?yàn)樽鳛樽衷~的合成和作為句子中的一部分合成出的語(yǔ)音,其與前后語(yǔ)音的環(huán)境是不一樣的,因而輕重長(zhǎng)短等韻律也是不一樣的。

  合成的語(yǔ)音和提示音一起使用時(shí),往往因?yàn)槎叩膮^(qū)別較大而引起聽(tīng)感上的差異,使合成音顯得不自然。這種差異可以通過(guò)與提示音的互相調(diào)節(jié)而有所改善。最好可以做到提示音和合成音的發(fā)音人相同,這樣二者間的過(guò)渡在音色上不會(huì)有太大的出入。如果不能做到同一發(fā)音人,那要盡量讓二者在音色上相接近,語(yǔ)速要保持一致。此外,由于錄音的自然度比合成音高,容易引起聽(tīng)者的注意,可以適當(dāng)調(diào)高合成音的音量,使合成音能夠引起聽(tīng)感上的關(guān)注。在科大訊飛最新推出的InterPhonic 3.0系統(tǒng)中就提供了提示音資源管理工具,可以方便的在合成系統(tǒng)的實(shí)時(shí)合成中添加提示音,并可對(duì)提示音進(jìn)行音量調(diào)整使之與合成語(yǔ)音的銜接自然流暢。

  此外,我們還可通過(guò)一些參數(shù)設(shè)置和規(guī)則的約束調(diào)整合成的韻律,科大訊飛的合成系統(tǒng)提供了語(yǔ)速、音量、音高、停頓等多種參數(shù)的設(shè)置,這些設(shè)置可通過(guò)CSSML(中文語(yǔ)音標(biāo)記語(yǔ)言)對(duì)句子進(jìn)行韻律風(fēng)格的控制。例如,當(dāng)需要強(qiáng)調(diào)某個(gè)句子中的特定信息的時(shí)候,可以調(diào)整語(yǔ)速、音高、停頓等韻律控制參數(shù),在金額查詢、選擇問(wèn)句、信息確認(rèn)中都可以使用參數(shù)調(diào)節(jié)來(lái)突出強(qiáng)調(diào)。

  通過(guò)添加背景音樂(lè)和特殊音效的方式,也可以提高語(yǔ)音服務(wù)的親切度和自然度。經(jīng)過(guò)測(cè)試表明,音樂(lè)可以轉(zhuǎn)移人們對(duì)合成音中的一些微瑕的注意力,因而在大段的合成信息播報(bào)時(shí)配上風(fēng)格相近的背景音樂(lè),可以明顯的改善合成語(yǔ)音的自然度。而在一些重要信息的播報(bào)時(shí)配上音效可以提高人們對(duì)音效后播報(bào)信息的注意力。而且,在和機(jī)器對(duì)話時(shí)間過(guò)長(zhǎng)時(shí),人們的注意力就會(huì)分散,背景音樂(lè)和音效都可以有效的緩解聽(tīng)覺(jué)疲勞。

  識(shí)別技術(shù)的應(yīng)用可以省卻大量的查詢選擇,因而是語(yǔ)音界面設(shè)計(jì)中一個(gè)簡(jiǎn)化菜單層次的有效手段。一般來(lái)說(shuō)提高識(shí)別的準(zhǔn)確率的方法是這樣,首先結(jié)合應(yīng)用地理環(huán)境、實(shí)際場(chǎng)景、客戶群進(jìn)行語(yǔ)法優(yōu)化,其次使用N_best、置信度等技術(shù)提高識(shí)別結(jié)果準(zhǔn)確度,最后進(jìn)行全面的tuning來(lái)對(duì)識(shí)別效果進(jìn)行調(diào)優(yōu)。語(yǔ)法優(yōu)化是根據(jù)識(shí)別使用區(qū)域的語(yǔ)言習(xí)慣,對(duì)語(yǔ)法進(jìn)行的調(diào)整,可以增加常用的詞匯擴(kuò)大識(shí)別的范圍,例如北方人"俺"也可識(shí)別成"我"。使用N_best技術(shù),識(shí)別系統(tǒng)會(huì)給出多個(gè)選擇,然后讓用戶進(jìn)行按鍵確認(rèn),這樣對(duì)于比較相似的選項(xiàng)造成的識(shí)別率問(wèn)題可以得到很好的解決。設(shè)置置信度評(píng)分管理機(jī)制對(duì)識(shí)別結(jié)果進(jìn)行劃分并進(jìn)入不同的應(yīng)答流程,既可以提高識(shí)別率也可以節(jié)省反復(fù)的詢問(wèn)流程。當(dāng)分?jǐn)?shù)過(guò)低時(shí)可直接排除,達(dá)到一定的分?jǐn)?shù)可通過(guò)詢問(wèn)獲取使用者更多的信息進(jìn)行確認(rèn),如果分?jǐn)?shù)高過(guò)設(shè)置的范圍可直接認(rèn)為識(shí)別正確。當(dāng)系統(tǒng)使用一段時(shí)間后,我們還可以收集前期用戶使用過(guò)程的全部錄音數(shù)據(jù)進(jìn)行參數(shù)的調(diào)整試驗(yàn),直到計(jì)算出最合適的參數(shù)設(shè)置。

  優(yōu)化語(yǔ)音合成的效果,提高語(yǔ)音識(shí)別的準(zhǔn)確率,再將提示音和二者配合的恰到好處,就可以構(gòu)成一個(gè)貼近自然交流狀態(tài)的人性化的語(yǔ)音應(yīng)用界面。科大訊飛公司以專業(yè)的態(tài)度在應(yīng)用中不斷的完善其語(yǔ)音應(yīng)用系統(tǒng),并致力于語(yǔ)音應(yīng)用標(biāo)準(zhǔn)化工作的推動(dòng)和實(shí)施,為語(yǔ)音界面設(shè)計(jì)者提供更便捷更實(shí)用的效果優(yōu)化和系統(tǒng)管理工具,讓語(yǔ)音界面設(shè)計(jì)工作變得更加輕松有效。

科大訊飛公司供稿 原文刊登在《客戶世界》



相關(guān)鏈接:
訊飛暢言語(yǔ)音教具系統(tǒng)榮獲“創(chuàng)新軟件產(chǎn)品” 2009-09-08
科大訊飛嵌入式語(yǔ)音新產(chǎn)品發(fā)布會(huì)在深圳舉行 2009-09-07
“會(huì)說(shuō)話”的顯示屏提升居民小區(qū)信息服務(wù)水平 2009-09-07
訊飛語(yǔ)音助力太平人壽客服中心 2009-08-28
訊飛語(yǔ)音助力CDMA手機(jī)競(jìng)爭(zhēng)終端市場(chǎng) 2009-08-14

分類信息:     文摘   技術(shù)_語(yǔ)音合成_文摘