把網(wǎng)站內(nèi)容發(fā)送到第三代視頻手機
一.概述
二.一個有價值的建議――把視頻看作一個延伸層
三.網(wǎng)關(guān)功能需求
3.1 物理層
3.2 媒體流層
3.3 應(yīng)用程序?qū)?/a>
五. 特別的挑戰(zhàn)
5.1 流化的音頻
5.2 流化的視頻
5.3 圖像的視圖控制
5.4 用戶輸入
六.典型應(yīng)用
6.1 應(yīng)用特征
6.2 音頻/視頻通訊
6.3 需要文本輸入的應(yīng)用
6.4 選擇的自由
七.商業(yè)模式
八.NMS能幫什么忙?
一.概述
基于3G團體開發(fā)的3G324M標(biāo)準(zhǔn)的無線視頻手機,現(xiàn)在已經(jīng)被無線業(yè)務(wù)提供商用于動態(tài)圖像呼叫。把普通網(wǎng)站的內(nèi)容發(fā)送到那些手機上的業(yè)務(wù)會很有價值。
本文考究一個能把網(wǎng)站內(nèi)容發(fā)送給視頻手機用戶的網(wǎng)關(guān)。評估了網(wǎng)關(guān)中各種必要組成部件的成就,并解決了一些特別困難的問題。用詳細(xì)精確的應(yīng)用例子說明網(wǎng)關(guān)的工作原理,并評估了它在促進(jìn)新業(yè)務(wù)方面的潛力。
NMS通信公司為正在出現(xiàn)的3G無線視頻技術(shù)OEM廠商和開發(fā)商提供廣泛的業(yè)務(wù)支持和解決方案。特別關(guān)注為無線視頻手機用戶提供新業(yè)務(wù)的網(wǎng)關(guān),這些網(wǎng)關(guān)允許從傳統(tǒng)電話網(wǎng)和IP網(wǎng)接入到呼叫對象和視頻內(nèi)容。最初配備的3G324M無線視頻手機的使用情況,以及業(yè)務(wù)供應(yīng)商盡可能補充舊2G設(shè)備的需求,都是在短期內(nèi)指導(dǎo)網(wǎng)關(guān)設(shè)計的因素。本文所討論的網(wǎng)關(guān)就是NMS準(zhǔn)備為客戶需求而開發(fā)的網(wǎng)關(guān)例子。
二.一個有價值的建議――把視頻看作一個延伸層
許多不同的無線設(shè)備正為把網(wǎng)站內(nèi)容發(fā)給移動用戶這個有巨大潛力的市場而展開競爭。如果我們把這些無線設(shè)備按功能作一個條形分布圖,那么條的一端是:智能化、全功能的設(shè)備,比如膝上型電腦和PDA,如果提供有標(biāo)準(zhǔn)的因特網(wǎng)連接,它們都能以自己的方式呈現(xiàn)出網(wǎng)站的內(nèi)容。而條的另一端是啞終端,它們幾乎需要全部由內(nèi)建于網(wǎng)關(guān)的智能來呈現(xiàn)網(wǎng)站的內(nèi)容。WAP設(shè)備處在條的中間位置,它只能呈現(xiàn)一些由網(wǎng)關(guān)提供的內(nèi)容,但在設(shè)備內(nèi)能處理某種形式的HTML。
在不久的將來,象3G324M無線視頻手機(如圖1所示)那樣的啞終端,極具潛力占領(lǐng)最廣闊的市場。3G324M是由3G無線團體開發(fā)的標(biāo)準(zhǔn),它定義了和簡單視頻手機的通信。在手機之間或手機與網(wǎng)關(guān)之間,全雙工的流承載著以下信息:以簡單輪廓MPEG-4格式編碼的H.263視頻、AMR編碼的音頻和H.245控制信息,每個方向的所有這些信息用H.223標(biāo)準(zhǔn)復(fù)用成為單個流。對于這些流的進(jìn)一步傳送,可以由傳統(tǒng)2G設(shè)備提供的TDM電路來完成。
在很長一段時間以來,格言"網(wǎng)絡(luò)的智能會轉(zhuǎn)移到外圍設(shè)備上"很可能包含著真理。對于無線萬維網(wǎng)應(yīng)用來說,一個緊湊、不貴又高度智能化的移動設(shè)備,再加上一條連接到因特網(wǎng)的普通寬帶IP路由,就是最理想的方案了。然而,多年來現(xiàn)實已證明,有許多限制因素使得這種想法無法實現(xiàn)。目前的智能移動設(shè)備笨重而又昂貴,而且使用現(xiàn)有的電池技術(shù)要存貯足夠的電力還有問題。在使用怎樣的鍵盤和顯示終端的問題上也有一個內(nèi)在的沖突:用大一點易于使用的呢,還是用小一點的便于攜帶呢?另外,傳統(tǒng)的蜂窩網(wǎng)絡(luò)是設(shè)計用來承載64kbps
的語音電路的,而不是高速因特網(wǎng)接入所要求的寬帶包。
然而,H.263協(xié)議和硅半導(dǎo)體技術(shù)使得生產(chǎn)一個緊湊的、相當(dāng)便宜的視頻手機成為可能,并且這種手機在傳統(tǒng)的64kbps電路上工作得很好。用于下一代無線手機的3G324M標(biāo)準(zhǔn)可以作為一個"延伸層"(spanning
layer)。"延伸層"是MIT的David Clark 使用的一個術(shù)語,它描述的是一個既簡單又可以廣泛使用的標(biāo)準(zhǔn),這個標(biāo)準(zhǔn)允許相互競爭的設(shè)備提供商和應(yīng)用開發(fā)商大團體能相互獨立地工作,卻又共同形成一個產(chǎn)業(yè)。3G324M標(biāo)準(zhǔn)可能允許無線業(yè)務(wù)提供商推出用于視頻呼叫的手機,而對將來的應(yīng)用又沒有做出特別的規(guī)定,如萬維網(wǎng)內(nèi)容的遞送。這樣,網(wǎng)關(guān)供應(yīng)商就可以推動其它環(huán)境的應(yīng)用開發(fā),以提供豐富的新業(yè)務(wù),比如到商業(yè)視頻會議設(shè)備的連接業(yè)務(wù)、視頻郵件業(yè)務(wù)、網(wǎng)站內(nèi)容遞送業(yè)務(wù)。3G324M無線視頻手機也要有比較好的配備才能處理一些極困難的網(wǎng)站內(nèi)容接收,也就是視頻和音頻流。
如果是在經(jīng)濟高增長時期,可以說服無線業(yè)務(wù)提供商和他們的用戶去購買已可用的3G設(shè)備。但事實上是目前兩者都為超預(yù)算所困擾。這就意味著,只要有可能業(yè)務(wù)提供商就會盡量使用2G設(shè)備。這可以作為最接近公共電話網(wǎng)的系統(tǒng)的一部分來實現(xiàn),并且仍然支持3G324M手機的使用。對大部分潛在的用戶來說,當(dāng)前他們不會選擇購買一個昂貴的無線PDA,因為習(xí)慣于蜂窩電話機是作為蜂窩業(yè)務(wù)的一部分免費提供的。然而,如果無線運營商配置的是一種相當(dāng)便宜的視頻手機,并讓用戶預(yù)交一定量的新業(yè)務(wù)費用,就可以沿用這種商業(yè)模式了。網(wǎng)站內(nèi)容網(wǎng)關(guān)的配置可以隨著使用用戶的增加而加大,這樣可以免除業(yè)務(wù)提供商任何不必要的前期費用。網(wǎng)關(guān)中為遞送網(wǎng)站內(nèi)容作準(zhǔn)備的智能設(shè)備越貴,在忙時就越要滿負(fù)荷使用,因為達(dá)到滿負(fù)荷使用是提供低成本效益比業(yè)務(wù)的關(guān)鍵。但是,即使是使用最頻繁的用戶,他的智能手機大部分時間也處于空閑之中。因此業(yè)務(wù)提供商在剛開展業(yè)務(wù)時會配置少數(shù)幾個智能設(shè)備,只有能達(dá)到滿負(fù)荷使用時,才作進(jìn)一步的擴容。
對于處在兩個規(guī)范網(wǎng)絡(luò)間的網(wǎng)關(guān),總的需求是很簡單的:在所有層上匹配兩個網(wǎng)絡(luò)間的功能,處理兩個網(wǎng)絡(luò)間的任何轉(zhuǎn)換需求。所有在這里描述的功能要求也可以應(yīng)用到不是遵循3G324M標(biāo)準(zhǔn)的無線視頻手機,任何的不同都可以通過網(wǎng)關(guān)的輕微調(diào)整來適應(yīng)。
圖2 3G324M-網(wǎng)站內(nèi)容遞送網(wǎng)關(guān)網(wǎng)絡(luò)拓樸
3.1 物理層
從無線側(cè)看來,網(wǎng)關(guān)只是標(biāo)準(zhǔn)視頻呼叫中的一方。(如圖2所示)物理層很可能使用標(biāo)準(zhǔn)的T1或E1中繼連接到公網(wǎng)級電路交換機。假設(shè)每個視頻呼叫需要一個64kbps
的中繼通道(雖然也可使用多個通道)。無線側(cè)的呼叫建立會使用ISDN協(xié)議,這個協(xié)議支持多個通道的綁定。這個64kbps流的內(nèi)容是以下信息的組合:H.263視頻、AMR編碼的音頻、H.245協(xié)商消息。組成的方法是按照H.223多路復(fù)用。H.245協(xié)議用于起動視頻和音頻流。
在網(wǎng)關(guān)的因特網(wǎng)側(cè),標(biāo)準(zhǔn)的網(wǎng)站瀏覽通過以太網(wǎng)物理層來完成,使用HTTP/TCP/IP協(xié)議來訪問網(wǎng)頁。內(nèi)容遞送網(wǎng)關(guān)是以面向因特網(wǎng)的瀏覽器的角色出現(xiàn)的。
為了能提供這一新業(yè)務(wù),不管是無線網(wǎng)還是因特網(wǎng),都不需要調(diào)整。只有網(wǎng)關(guān)自己和無線用戶才需要知道:這兩個網(wǎng)已經(jīng)接合起來了。
給手機的視頻信號必須從當(dāng)前網(wǎng)頁的內(nèi)容生成。對于HTML或JPEG,可以形成一個靜態(tài)圖像,然后再轉(zhuǎn)換成簡單輪廓MPEG-4視頻幀,并簡單地重復(fù)這個幀就可以了。流化視頻需要從其它一些視頻格式實時轉(zhuǎn)換成簡單輪廓MPEG-4。任何從無線視頻手機發(fā)來的視頻都會被簡單丟棄。
對于音頻,大部分的時間會產(chǎn)生AMR靜音信號,然后發(fā)送到手機。當(dāng)接入的是流化音頻時,可能需要先從別的音頻格式解碼,再編碼成AMR。從手機發(fā)來的音頻通常會被丟棄,但是也有例外,象:用于語音識別的音頻輸入、用于DTMF檢測的音頻輸入和某些H.245消息,它們用于組成典型的用戶給瀏覽器的輸入,就象電腦中的鼠標(biāo)和鍵盤。
3.3 應(yīng)用程序?qū)?a name="#33">
在應(yīng)用程序?qū),從無線手機發(fā)起的呼叫建立狀態(tài)包括用ISDN得來的主叫標(biāo)識去:形成計費話單、登錄到主頁、跳轉(zhuǎn)到書簽處和收發(fā)郵件業(yè)務(wù)――為用戶建立一系列的標(biāo)準(zhǔn)瀏覽器功能。有些附加的密碼輸入會用于額外的安全要求。連接一旦建立,以下各種鼠標(biāo)操作對任何應(yīng)用來說都是需要的:點擊一個新的鏈接、顯示一個新的網(wǎng)頁、跳到大量排序數(shù)據(jù)的某部分。然而,由于無線視頻手機的限制,這些都會遇上特別難于解決的問題。這些問題會在本文的"特別的挑戰(zhàn)"一節(jié)進(jìn)行更詳細(xì)的討論。
圖3所示為網(wǎng)關(guān)重要組成的分解圖。網(wǎng)關(guān)機箱很可能是一個Compact PCI機箱,機箱中包含了作為網(wǎng)絡(luò)中一個節(jié)點的所有組件;镜囊曨l呼叫和瀏覽器應(yīng)用可以運行在主處理器上,但T1或E1接口需要由附加模塊來支持。為了支持大量的端口,還需要附加的以太網(wǎng)接口和自定義的視頻處理模塊。T1/E1接口通過公共電話網(wǎng)接入無線交換中心,也可以直接接入到無線交換中心。以太網(wǎng)接口會通過標(biāo)準(zhǔn)IP路由器接入到因特網(wǎng)。
圖3 強調(diào)的是3G324M網(wǎng)站內(nèi)容遞送網(wǎng)關(guān)的組成。它支持網(wǎng)絡(luò)管理功能和用戶管理功能,同時通過附加的鏈路處理計費話單,這個附加鏈路很可能是這里沒畫出的另一個IP網(wǎng)。完成標(biāo)準(zhǔn)瀏覽器功能的模塊在圖3的最右邊,支持標(biāo)準(zhǔn)無線視頻呼叫的模塊在左邊。
最粗的箭頭表示實時媒體流。稍小一點的箭頭表示控制消息和非實時媒體傳送。由于到手機的視頻流占用較窄的帶寬,音頻和視頻數(shù)據(jù)流可以做類似的處理。對于一個有大量端口的大規(guī)模系統(tǒng),設(shè)計時應(yīng)該支持在以太網(wǎng)和T1/E1中繼間的實時媒體流,而不要讓它們通過主處理器或PCI總線。T1/E1中繼和以太網(wǎng)接口模塊可以合并,包括其中必須的視頻和音頻處理。或者在Compact
PCI模塊之間用新的、高帶寬的交換結(jié)構(gòu)來處理實時數(shù)據(jù)流。
對于HTML網(wǎng)頁,標(biāo)準(zhǔn)瀏覽器功能會建立一個類似于PC瀏覽窗口的內(nèi)部圖象,然后由特定網(wǎng)關(guān)功能對圖像加工,形成一個適合于手機顯示的視頻流。網(wǎng)站中的其它靜態(tài)圖象,比如JPEG,不需要生成HTML網(wǎng)頁內(nèi)部圖象,而是能直接加工成視頻流。第三種形式的內(nèi)容及視頻剪輯,不會使用從靜態(tài)圖象到視頻流的加工過程,但需要從某種視頻格式(如MPEG-2)解碼,再編碼成為手機的簡單輪廓MPEG-4視頻格式。
處于圖3中間的部分組件代表一些本文下一節(jié)將會詳細(xì)討論的具有挑戰(zhàn)性的領(lǐng)域。對任何類型的圖像都必須做一些視圖的編輯以補償由于轉(zhuǎn)換到簡單輪廓MPEG-4所造成的分辯率損失。由于無線手機沒有全功能鍵盤,所以用戶的文本字符串輸入需要做特別處理。為這些限制建立特別處理是提供的業(yè)務(wù)有沒有價值的關(guān)鍵,否則,可能由于業(yè)務(wù)的使用太麻煩,以至于推廣不開來。
建立一個有用網(wǎng)關(guān)時最難解決的問題是必須注重人類工程學(xué)方面的設(shè)計。雖然方案選擇也可能是一個特別的技術(shù)挑戰(zhàn),但最隹方案的決定根本不是技術(shù)上的運用,而問題正好出現(xiàn)在易于表述的技術(shù)問題上,例如:從網(wǎng)站送出的音頻可以達(dá)到CD般的質(zhì)量,但是送給手機的AMR編碼音頻只能滿足僅可聽懂的話音質(zhì)量。大部分網(wǎng)頁都是設(shè)計用于個人電腦屏幕的分辯率(1024x768)。而視頻手機大部分都受限于H.263 QCIF的分辯率(176x144),一條線上的分辯率差距高達(dá)6倍。而且,設(shè)計時用戶和網(wǎng)站服務(wù)器交互使用的是鼠標(biāo)和全功能電腦鍵盤,而無線手機只有一個非常受限的小鍵盤。
一個有利的情況是:大部分網(wǎng)站的設(shè)計都慮到了大多數(shù)的用戶仍然使用撥號上網(wǎng),因此許多網(wǎng)站為有寬帶接入和無寬帶接入的用戶提供了并行的不同瀏覽途徑。撥號連接那有限的帶寬正好和無線視頻手機的收發(fā)帶寬具有可比性,因此,即使需要的信息表述和交互的方式相差很遠(yuǎn),無線用戶也可以選擇為撥號用戶設(shè)計的網(wǎng)頁,以便有信息遞送時獲得和撥號用戶差不多的響應(yīng)時間。
5.1 流化音頻
流化音頻的應(yīng)用很少,并且在應(yīng)用中都處于不重要的地位,對信息的內(nèi)容來說,它不是實質(zhì)性的。對于一系列重要的小應(yīng)用,如:新聞和體育評論、以及季度財務(wù)報告大會的收聽,話音的傳送就很關(guān)鍵。在所有這些情況下,AMR編碼的話音質(zhì)量讓用戶聽懂是足夠的了,但如果要用這種AMR通道來傳送CD質(zhì)量的音樂,就會明顯顯得不足。即使電腦用戶下載音樂片段的速度要比實時慢得多,但他下載回來后仍可以聽到高質(zhì)量的回放。在一個非智能的無線手機上無法提供這種能力。AMR編碼的音樂也有一定的價值,但它不是以娛樂為目的的。把來自網(wǎng)站服務(wù)器的流化音頻轉(zhuǎn)換成手機需要的AMR編碼音頻是一個簡單的技術(shù)問題,但是需要大量的計算能力。明智的做法應(yīng)該是在一個附屬的模塊上用DSP資源來做這種運算,而不要在網(wǎng)關(guān)的主處理器上做這種運算。
5.2 流化視頻
同樣地,流化的視頻現(xiàn)在也不常用。在使用它的大部分應(yīng)用中,視頻都是顯示在整個電腦屏幕內(nèi)的一個小窗口之中。這個小窗口的分辨率近似于手機上的完全QCIF顯示。必須用一種方法把視頻縮放到容納它的屏幕窗口一般大,但在這兩種收看環(huán)境中其它的收看感覺是大致一樣的。在某些情況下,也許可以通過和流服務(wù)器協(xié)商,讓服務(wù)器直接送本來手機需要的簡單輪廓MPEG-4視頻流?墒牵绻@種情況不可能,就需要配備高強度運算的轉(zhuǎn)換功能,來把視頻從一種格式轉(zhuǎn)換成另一種格式。這種高強度運算的轉(zhuǎn)換功能最好在一個附屬的模塊上用附加的硬件資源來完成,而不要由網(wǎng)關(guān)的主處理器來完成。
5.3 圖像的視圖控制
所有網(wǎng)頁的原組件──JPEG、HTML或其它形式的組件── 一幅個人電腦屏幕上的完整圖像,要顯示在手機的小屏幕上,對大部分普通應(yīng)用來說這個小屏幕的分辨率都是不夠的。適當(dāng)剪裁應(yīng)用程序的顯示介面,以適應(yīng)小屏幕的顯示,會得到很好的使用效果。我們的目標(biāo)是在網(wǎng)關(guān)支持視頻手機的這些獨特顯示,使得手機能訪問普通的網(wǎng)站?梢猿晒崿F(xiàn)這個目標(biāo)的兩種技術(shù)是:
■ 通過屏幕的局部視圖進(jìn)行用戶輸入的控制;
■ 用"動"來補嘗分辨率的低下──使用附加于視頻流中的連續(xù)幀。
縮放和取景窗是廣泛使用的視頻控制技術(shù),這些技術(shù)也適用于這里介紹的方案。各級縮放都只有一個方向的控制(只有放大或只有縮。┎粫忻黠@的麻煩,只要三級的縮放就能達(dá)到個人電腦全屏的分辨率(QCIF
x 8=1408 x 1152),只有用到四級以上的縮放,才需要同時為每級提供放大和縮小兩個方向的控制。在普通瀏覽操作中,需要通過鼠標(biāo)來控制光標(biāo)的移動。在一個縮放和取景窗的系統(tǒng)中,光標(biāo)控制(上、下、左、右四個鍵)同時也作取景窗控制用。畫面縮放后光標(biāo)會保持在視窗的中央,移動窗口就可以看到圖像的其它內(nèi)容,直到整幅圖像的邊為止。所以,一個標(biāo)準(zhǔn)的操作過程是這樣的:一個新的HTML頁面開始會以全屏的方式顯示,中間有光標(biāo)用于放大,用戶可以把光標(biāo)移動到自己感興趣的內(nèi)容上,然后按下放大控制鍵。這一操作過程可以根據(jù)需要一直下去,直到能清晰地看清要看的內(nèi)容。特別需要注意的是,在給出一個文本輸入框時,取景窗要放置在輸入光標(biāo)位置的中間,而不是鼠標(biāo)光標(biāo)位置的中間。直接的取景窗控制也是允許的──上、下、左、右控制──類似于普通個人電腦屏幕上窗口邊或底部的滑動條。
視頻中的幀流允許用戶控制的取景選擇。一旦達(dá)到想要的縮放級別,自動掃描方式會停下來,并以這個縮放級顯示整個頁面,不再需要用戶的干預(yù)。對于英文內(nèi)容的頁面,掃描會從左到右,從上到下的進(jìn)行。如果能控制在每個方向上的掃描速度會很有用,但從另一方面看,增加額外的控制又是很麻煩的。也許以一個預(yù)設(shè)的掃描速度來搜索整個頁面,而以另一個預(yù)設(shè)的較慢速度由上到下移動用于閱讀,會乎合最普遍的要求。
5.4 用戶輸入
和圖像顯示相比,用戶輸入甚至是一個更大的挑戰(zhàn)。無線手機的小鍵盤和全功能電腦鍵盤及鼠標(biāo)相比實在受到太多的限制。手機擊鍵可以轉(zhuǎn)換成音頻流中的音頻信號,比如DTMF信號。但由于DTMF信號具有持續(xù)時間短和占用頻帶窄的特點,造成AMR音頻編碼不能可靠地轉(zhuǎn)換這種信號。H.245協(xié)商通道可以用于傳送象擊鍵那樣的控制信息,但是由于沒有相關(guān)的標(biāo)準(zhǔn),需要在手機上做特殊的處理。使用手機最通常的輸入方式是語音輸入(沒有音頻信號和H.245消息),這個時候就要用語音識別了。
這些年來語音識別的準(zhǔn)確率已有了很大提高,但是象AMR那樣有限的帶寬通道,以及一般移動呼叫都有比較大的背景噪聲,都會造成識別率的嚴(yán)重下降。這就要求對詞匯表做一些處理,最好使用盡量少的詞,表中的詞沒有二義,發(fā)音不能相同。為了提高識別的準(zhǔn)確性,甚至要存貯用戶的特殊發(fā)音特征。最頻繁使用的鼠標(biāo)控制和視圖控制輸入最好單獨形成一個子詞匯表,大約有10個詞:上、下、左、右、停、點擊、放大、縮小、掃描、閱讀。剩下的主要是文本輸入,可能需要幾個子詞匯表。用于輸入數(shù)字的子詞匯表自然也大約是10個詞。發(fā)音問題顯然也是一個很大的挑戰(zhàn),因為很多字母的組合發(fā)音相象。有一些可能的辦法,包括:用說出數(shù)字來代表電話小鍵盤上的字母;或者說出組成單詞的每一個字母來表示該詞(Alpha、Bravo、Charlie、….)。另外,還要包含各種標(biāo)點符號。用于糾錯的編輯命令也是必須的。對用戶來說所有這些文本輸入技術(shù)都意味著一種負(fù)擔(dān)。能夠僅由鼠標(biāo)來操控的網(wǎng)上應(yīng)用似乎是易于訪問的,但是這樣的應(yīng)用如果需要文本輸入就太難解決了。