基于AVS-M和DM642視頻服務(wù)器的研究
2007/09/13
1 引言圖1 IMlab6421硬件原理框圖
3 軟件設(shè)計
DSP嵌入式程序受硬件資源的限制,對程序流程和數(shù)據(jù)組織需要從硬件資源和代碼運行效率上做仔細的考慮。通過分析AVS-M編碼器的程序流程,借助實驗中積累的經(jīng)驗,本文給出了AVS-M編碼器的優(yōu)化方案,主要介紹Cache性能優(yōu)化、存儲空間的分配以及CPU與DMA的并行性設(shè)計等。
3.1存儲結(jié)構(gòu)及CACHE性能優(yōu)化
(1)存儲結(jié)構(gòu):DM642的存儲器系統(tǒng)由片內(nèi)內(nèi)存L1、L2和片外外存兩部分組成,L1,L2和片外SDRAM構(gòu)成了整個存儲器系統(tǒng)的三級層次結(jié)構(gòu),如圖2所示。其中,片內(nèi)內(nèi)存采用兩級緩存結(jié)構(gòu),第一級由L1P和L1D組成,L1距離DSP核最近,數(shù)據(jù)訪問速度最快,只需一個時鐘周期,只能作為不能尋址的Cache使用。第二級L2是一個統(tǒng)一的程序/數(shù)據(jù)空間,可以整體作為SRAM映射到存儲空間,也可以整體作為第二級Cache,或是二者按比例進行組合。第三級是片外外存,一般由SDRAM構(gòu)成。L1Pcache大小為16KB,直接映射,每行大小32
字節(jié);L1D cache大小16KB, 2路映射,每行大小64 字節(jié)。L2是L1和外存儲器的中間層,容量較大有256KB,訪問速度較慢,根據(jù)
L2 配置為Cache 或SRAM 的不同選擇,訪問速度需8個或6個時鐘周期。片外存儲器容量很大但訪問速度很慢,一般都會遠遠大于 8 個時鐘周期。
圖2 三級存儲系統(tǒng)
(2)CACHE性能優(yōu)化:要優(yōu)化Cache的使用性能需了解Cache的具體結(jié)構(gòu),如Cache容量、行大小、組相聯(lián)數(shù)等。下面總結(jié)了一些優(yōu)化Cache性能的方法:合理配置L2;合理布置程序代碼段和數(shù)據(jù)段的內(nèi)存布局,為防止有效代碼、數(shù)據(jù)在緩沖存儲器中相互排擠,應(yīng)盡量把順序執(zhí)行的代碼、同時使用的數(shù)據(jù)放在相互鄰接的物理空間當中;若函數(shù)模塊和數(shù)據(jù)包含在一個循環(huán)中,循環(huán)體的大小應(yīng)和Cache的容量相吻合,以便能把整個循環(huán)體全部放入Cache中。為了提高Cache中數(shù)據(jù)的重復(fù)利用率,把數(shù)據(jù)操作構(gòu)成一條數(shù)據(jù)處理鏈,鏈中的下一級操作就能直接使用上一級操作留在Cache中的數(shù)據(jù)。此外還可以根據(jù)Cache行數(shù)據(jù)寬度信息調(diào)節(jié)數(shù)據(jù)在物理內(nèi)存中的存放位置,從而利用數(shù)據(jù)預(yù)取增加Cache的命中率;挖掘L1D的不命中流水處理能力,加速待使用數(shù)據(jù)的讀入速度;通過合理的數(shù)據(jù)填充策略,避免同一時鐘周期對相同存儲體的讀寫操作將造成存儲器的存取沖突。
3.2存儲空間的分配
在DSP上由于內(nèi)存空間有限,需要合理分配內(nèi)存空間,這對于程序的運行效率十分重要。使用的一個原則是:應(yīng)盡量把數(shù)據(jù)和代碼放入片內(nèi)存儲器。因為外存比CPU工作的速度要慢很多,如果用CPU來處理訪問外部存儲器的工作,大量時間將浪費在存取等待上。
DM642的L2片內(nèi)存儲器可以配置為SRAM或Cache。由于編碼器的數(shù)據(jù)流程是有規(guī)律的,因此我們考慮用程序控制DMA控制器來進行內(nèi)存和外存之間的數(shù)據(jù)交換,這樣比硬件自動地來處理效率要高。
由于片內(nèi)存儲器容量的限制,不可能將編碼器的所有數(shù)據(jù)都放入片內(nèi)存儲器。原始圖像和重構(gòu)圖像是無法完全放到片內(nèi)存儲器中的。事實上,沒有必要將這些數(shù)據(jù)放在片內(nèi),因為編碼器的處理過程是以宏塊為單位的,我們只需要在片內(nèi)維護一個宏塊的數(shù)據(jù)結(jié)構(gòu),CPU訪問這些數(shù)據(jù)進行計算。每編碼一個宏塊的時候把該宏塊需要的數(shù)據(jù)從外存調(diào)入內(nèi)存,填到相應(yīng)的這些數(shù)據(jù)結(jié)構(gòu)中。利用DM642提供的QDMA機制,CPU發(fā)出QDMA請求后就可以繼續(xù)對其它數(shù)據(jù)進行計算,由DMA負責將數(shù)據(jù)從外存調(diào)到內(nèi)部存儲器。因此如何設(shè)計使CPU與DMA之間協(xié)調(diào)工作很重要,本文2.3部分將詳細討論這個問題。
需要注意的問題是當前宏塊編碼過程中需要用到前面編碼已經(jīng)獲得的一些信息。參考代碼中是保留所有宏塊的編碼信息,這樣的做法是不適合DSP實現(xiàn)的,需要的存儲空間太大,片內(nèi)存儲器無法容納。實際上編碼當前宏塊只需要參考它上面和左面的宏塊。因此設(shè)計編碼器中各模塊的局部數(shù)據(jù)結(jié)構(gòu)如圖3所示。該數(shù)據(jù)結(jié)構(gòu)保留上面一行的值和左邊宏塊的值,每編碼完一個宏塊,確定當前宏塊的信息后更新這些緩沖區(qū),這些數(shù)據(jù)可以放在L2中,不用訪問外存。而且實驗證明用來維護這樣的數(shù)據(jù)結(jié)構(gòu)所需要的計算時間很小。
圖3 模塊的局部數(shù)據(jù)結(jié)構(gòu)
經(jīng)過優(yōu)化的程序和常用的數(shù)據(jù)結(jié)構(gòu)的大小可以放在L2中。所以按照上面的分析將L2配置為256KBSRAM,將程序代碼段(.text)、變量初值表(.cint)、常量字符串(.const)、全局變量靜態(tài)變量(.bss/.far)、堆棧段(.stack)等放入L2SRAM當中,全局堆(.sysmem用于動態(tài)存儲器分配)置于外部存儲器。表1總結(jié)了編碼器所要用到的存儲空間分配情況。
表1編碼器存儲空間的分配
圖4 CPU與DMA并行工作
只依靠上面這些方法進行優(yōu)化,視頻壓縮還不能達到實時要求,還需要進行算法級優(yōu)化,以及對編碼器中各個模塊進行程序代碼級的優(yōu)化。常通過采用內(nèi)聯(lián)函數(shù)、軟件流水、線性匯編優(yōu)化等方法,以及合理使用針對視頻處理而設(shè)計的特殊指令集,充分利用DM642內(nèi)部的并行計算單元,提高了程序的運行速度。由于篇幅有限,對這些優(yōu)化方法本文不再重點論述。
4 .結(jié)論
結(jié)合AVS-M視頻壓縮處理流程的特點,本文完成了一個基于DM642平臺的編碼器的設(shè)計與實現(xiàn)。通過對編碼流程的合理安排使得CPU能與DMA控制器并行工作,CPU不用等待數(shù)據(jù),需要的數(shù)據(jù)已經(jīng)被DMA調(diào)到內(nèi)存中。實驗表明通過系統(tǒng)級優(yōu)化、程序級優(yōu)化、匯編級優(yōu)化、算法級優(yōu)化等優(yōu)化之后,基于這款視頻服務(wù)器(實物圖見圖5),能達到2路CIF352x288格式實時視頻壓縮,以及音頻實時編碼、解碼處理,且圖像主觀效果及音頻效果良好。
本文創(chuàng)新點是:把具有自主知識產(chǎn)權(quán)的數(shù)字音視頻編解碼技術(shù)標準第七部分(AVS-M)應(yīng)用于視頻服務(wù)器的視頻壓縮,目前市場上還沒有采用此壓縮標準的產(chǎn)品,此產(chǎn)品具有極高得性價比,采用此壓縮標準還可以避免產(chǎn)品產(chǎn)業(yè)化之后知識產(chǎn)權(quán)之爭,具有很好的應(yīng)用前景。
圖5IMlab6421視頻服務(wù)器實物圖
視頻監(jiān)控標準化現(xiàn)狀 2007-09-12 |
北京V2科技有限公司總裁楊丹專訪:V2未來是可視的 2007-09-11 |
縱觀IP視頻監(jiān)控 技術(shù)成熟度有待提 2007-09-11 |
客服呼叫中心進化版:視頻互動客服系統(tǒng) 2007-09-10 |
新興“遙現(xiàn)”技術(shù):視頻會議枯木逢春 2007-09-07 |