欧美,精品,综合,亚洲,好吊妞视频免新费观看,免费观看三级吃奶,一级a片女人自慰免费看

您當(dāng)前的位置是:  首頁 > 新聞 > 文章精選 >
 首頁 > 新聞 > 文章精選 >

【RTC圖文回顧】視頻編碼未來簡史

2017-09-28 10:53:31   作者:   來源:CTI論壇   評(píng)論:0  點(diǎn)擊:


  本文根據(jù)RTC2017實(shí)時(shí)互聯(lián)網(wǎng)大會(huì),下一代云端音視頻技術(shù)專場,馬思偉老師的演講,整理得來。
  馬思偉:
  北京大學(xué)信息科學(xué)技術(shù)學(xué)院教授, 2005年博士畢業(yè)于中國科學(xué)院計(jì)算技術(shù)研究所。2005年8月至2007年8月在美國南加州大學(xué)進(jìn)行博士后研究,之后到北大工作至今。2013年獲國家自然科學(xué)基金委優(yōu)青項(xiàng)目資助,2015年入選中組部第二批青年拔尖人才計(jì)劃。主要研究方向?yàn)橐曨l編碼及處理,已發(fā)表論文200余篇,已獲授權(quán)發(fā)明專利40多項(xiàng)。擔(dān)任IEEE Transactions on Circuits and System for Video Technolgoy(TCSVT)、Journal of Visual Communication and Representation(JVCIR)期刊編委(AE)、中國圖象圖形學(xué)學(xué)會(huì)理事、AVS視頻組聯(lián)合組長等。自2002年起,陸續(xù)參與組織AVS1、AVS+、AVS2一系列國家標(biāo)準(zhǔn)的制定,曾獲國家技術(shù)發(fā)明獎(jiǎng)二等獎(jiǎng)、國家科學(xué)技術(shù)進(jìn)步獎(jiǎng)二等獎(jiǎng)等獎(jiǎng)勵(lì)。
  首先我們回顧一下視頻編碼的歷史,視頻編碼起源于廣播電視,在很長一段時(shí)間里視頻編解碼的變革主要推動(dòng)力是來自于廣播電視。當(dāng)然,今天我們看互聯(lián)網(wǎng)的視頻編碼是速度越來越快,昨天在ICET2017年世界大會(huì)上,ICET的主席還說到以前一個(gè)編碼是十年更新一版,但是現(xiàn)在從H.265最新進(jìn)展的來看,可能不到十年。
  我們看到這個(gè)圖,大家可能在小的時(shí)候見到過,電視上一個(gè)圓盤,這是最主要的電視測(cè)試信號(hào),這是1951年第一部數(shù)字電視和廣播。這個(gè)起源是脈沖調(diào)制編碼,相當(dāng)于一個(gè)脈沖一個(gè)象素值,比較早的是用固定的比特,用8比特表示圖象電視信號(hào)編碼傳輸。這是在廣播電視領(lǐng)域。
  到了我們計(jì)算機(jī)行業(yè),計(jì)算機(jī)誕生于1946年,但是在計(jì)算機(jī)上出現(xiàn)圖象是到了1957年, Kirsch是第一幅數(shù)字圖象的創(chuàng)造者,他用他的兒子做了第一幅數(shù)字圖像。2007年是這一幅圖象誕生50周年,現(xiàn)在是60周年了,原來的小baby現(xiàn)在也已經(jīng)是50、60歲的老頭了。今天的數(shù)字圖象,已經(jīng)到了4K甚至8K。
  到了編碼,編碼的原理是因?yàn)橐曨l里面有很多冗余,包括連續(xù)兩幅圖象出現(xiàn)的時(shí)域冗余,還有人眼對(duì)高頻信息不敏感的感知冗余;谶@個(gè)原理,現(xiàn)在視頻編解碼框架從早期261開始,一直到今天266快出來了,框架基本上沒有太多變化。
  在這個(gè)框架里面,編碼技術(shù)可以主要分成三大塊。變換編碼,剛剛提到通過變換把高頻信息、空域、時(shí)域的冗余信息去掉。還有預(yù)測(cè)編碼,還有熵編碼。這是三大塊編碼的技術(shù)。
  三大塊編碼技術(shù),從1950年左右開始。1946年計(jì)算機(jī)誕生,1948年是相對(duì)信息論,50年代初開始了數(shù)字化開始視頻數(shù)字編碼時(shí)代。在早期由于計(jì)算能力限制,基本上是基于象素處理,用統(tǒng)計(jì)模型去處理。計(jì)算能力增強(qiáng)了之后現(xiàn)在有基于塊的處理。原來只能是基于圖象去做,后面才可以基于塊的處理,基于塊的運(yùn)動(dòng)估計(jì)、運(yùn)動(dòng)補(bǔ)償,像塊大小也可以變化,今天我們看到的H.264、265都是這樣。
  再看當(dāng)下的視頻編碼技術(shù)進(jìn)展。首先是空間的分辨率,從原來的小圖象到標(biāo)清、到高清、再到超高清。第二,是時(shí)間分辨率,從原來的15幀,還有更高的20幀,到120。第三,采樣精度,現(xiàn)在的HDR高動(dòng)態(tài)范圍電視,至少是10比特了,但是10比特夠不夠,將來還會(huì)發(fā)展,也可能到了20比特。第四,視點(diǎn)數(shù)和視場范圍,這兩個(gè)是密切相關(guān)的。視頻傳的不是一路視頻,可能是兩路,可能是多路,這是視點(diǎn)數(shù)。視頻的范圍,看到的角度,越來越寬,這是視場范圍。第五,模型數(shù)據(jù)。模型數(shù)據(jù)是包括輪廓對(duì)象的刻劃。深度數(shù)據(jù),還包括特征,對(duì)圖像內(nèi)容、對(duì)象的認(rèn)識(shí)。還有是點(diǎn)云,完全可以把對(duì)象重建出來,遠(yuǎn)景重現(xiàn)就依賴這項(xiàng)技術(shù)。
  模型編碼,是標(biāo)準(zhǔn)之外的編碼。模型編碼這個(gè)概念也是比較久了,大概在80年代后期,一直到90年代中期的時(shí)候,曾經(jīng)有一個(gè)很大的呼聲,模型編碼是第二類編碼,但是今天為止我們發(fā)現(xiàn)二代始終沒上臺(tái),始終在用原來的二代。模型編碼的概念很光,可以把原基于象素的編碼都可以涵蓋,也是模型,只不過它的模型是基于信號(hào)模型。當(dāng)然我們熟悉的是對(duì)象模型,這個(gè)概念很新,但是它也沒有用起來,也是有很多問題,在這里提到場景的解析,人和場地的解析。
  更進(jìn)一步,包括對(duì)人,比如人的身體、臉可以建更高精度的模型。所以這對(duì)應(yīng)表格上是在早期過去編碼歷史也有反應(yīng),包括基于人臉模型,甚至人臉哭和笑,只要是做好模型,將來傳很少的數(shù)據(jù)就可以還原。當(dāng)然最后邊的發(fā)展最后還提到智能編碼,這是綜合了信號(hào)與視覺的模型,基于學(xué)習(xí)的視頻編碼。
  再看看視頻編碼的發(fā)展趨勢(shì)。4K越來越流行。我們看到互聯(lián)網(wǎng)廣播,包括最近廣東也開會(huì)提出下一步要提出4K電視廣播技術(shù),我們北京也提出2022年冬奧會(huì)是8K的試播。上圖可以對(duì)比一下,有測(cè)試8K,左上角的高清多么小。當(dāng)然8K視頻不只是分辨率的問題,還有配套的技術(shù),包括采樣精度、幀率和聲音。
  這是10億象素的相機(jī)拍攝的一張照片,圖片一直放大,可以清楚的看到“太和殿”三個(gè)字。
  剛剛說的主要是分辨率的增長。分辨率上去之后,并不是說要傳一個(gè)更大的視頻,對(duì)于后端來說,意味著可以提供更多的視頻應(yīng)用形式,比如AR和VR,F(xiàn)在4K做VR的視覺效果還是有問題的,還是需要更高的視頻帶寬和視頻精度去傳輸。模型編碼,對(duì)AR也有更大的提升作用。
  如果看挑戰(zhàn),第一是數(shù)據(jù)量的壓縮,依然比較嚴(yán)峻。8K、4K、HDR這樣的視頻,原始數(shù)據(jù)級(jí)是60Gbps。
  第二個(gè)挑戰(zhàn)是,從壓縮到分析。剛剛講到視頻編碼的第一個(gè)推動(dòng)作用是廣播電視,看到更好的視覺質(zhì)量。但是到今天為止,世界上好多視頻,比如監(jiān)控,并不是人要去看的,是計(jì)算機(jī)要去看的。我們沒有人去盯監(jiān)控視頻,希望計(jì)算機(jī)來能夠完成分析。目前的壓縮是面向存儲(chǔ)和傳輸,降低帶寬占用,但是分析的支持相當(dāng)弱。所以,很多視頻分析的研究是在壓縮完之后進(jìn)行。但是,隨著現(xiàn)在前期分析識(shí)別技術(shù)越來越強(qiáng),很多視頻分析開始在視頻編碼時(shí)就進(jìn)行智能分析、智能編碼。
  最新進(jìn)展我也快速過一下,一個(gè)是大家最關(guān)心的JEM266,高通推動(dòng)新一代的發(fā)展,最早是在MPEG會(huì)議提出,提出HM—KTA—1.0,到2020年制定新的標(biāo)準(zhǔn)。
  JEM的性能有很大提升。客觀性測(cè)試上,編碼效率已經(jīng)提升了30%,復(fù)雜度增加了12倍,這對(duì)編碼實(shí)現(xiàn)還是很有壓力的。這是剛剛出來的雛形,后端肯定會(huì)在復(fù)雜度和性能之間的做更多優(yōu)化做更多技術(shù)。
  最近已經(jīng)有幾家平臺(tái)基于JEM做了一些嘗試,可以看到他們的測(cè)試結(jié)果。在SDR、HDR、360video三個(gè)平臺(tái),可以看到基本上原來的碼率下一半的時(shí)候可以達(dá)到同等的要求。這個(gè)對(duì)8K很有吸引力,
  從固定精度運(yùn)動(dòng)矢量到自適應(yīng)精度運(yùn)動(dòng)矢量,離預(yù)測(cè)中心比較近是,用高精度,比較遠(yuǎn)時(shí)用低精度,以此來節(jié)省運(yùn)動(dòng)矢量編碼的碼率。
  第二個(gè)是關(guān)于劃分,劃分模式太多,大家在選擇起來比較頭疼。
  再說一下360,基本上是把投影拼接,拼接完了之后再壓縮編碼。在這個(gè)環(huán)節(jié)里面最重要的是投影數(shù)據(jù),投影數(shù)據(jù)決定你要壓縮什么、丟失什么,對(duì)整個(gè)VR的體驗(yàn)影響很多。這是很重要的方向。
 
  從圖象這塊我們可以看到全景視頻投影,從立方體、八面體、二十面體、球體,JEM里面有十幾種投影方式。
  對(duì)于質(zhì)量評(píng)價(jià)不一樣,當(dāng)然這種質(zhì)量評(píng)價(jià)也是影響你編碼工具的設(shè)計(jì),這兒有一個(gè)WSPSNR的概念因?yàn)樗菑那蛎嫱兜狡矫嫔先,有些?shù)據(jù)丟了,如何計(jì)算WSPSNR很難,當(dāng)然還有很多其他的方式。
  剛剛講到JEM的技術(shù)。像光場這塊原來是聚焦一個(gè)圖象,現(xiàn)在是把不同方向的內(nèi)容光線記錄下來,一遍是利用相機(jī)陣列,或者微透鏡成像。光場圖像壓縮,JPEG比較積極,它是在2017年1月份發(fā)布光場圖象壓縮平臺(tái)。
  在這里我們做了初步探索,對(duì)光場圖象里面有很多問題,每一個(gè)小透鏡采集的光和圖象不一樣,中間有很多差異。弄完之后實(shí)際上每個(gè)濾波就是一個(gè)視頻,每一個(gè)小透鏡就是一個(gè)小圖象,這些差異需要處理。
  再后來數(shù)據(jù)采集就是點(diǎn)云采集,把人臉模型變成動(dòng)畫場面。后面我們要把三維場景傳輸過去,這是下一步場景三維模型建模的技術(shù)發(fā)展方向。在這塊MPE也是比較迅速。
  在今年4微分發(fā)布的CFP,大概10月份確立第一個(gè)驗(yàn)證平臺(tái),這個(gè)是類似于AR、VR可以把動(dòng)態(tài)模型用三維模型傳輸過去。
  這是序列編碼框架,把編碼數(shù)據(jù)包裝到每一個(gè)盒子里面,當(dāng)然對(duì)于點(diǎn)云的數(shù)據(jù)要復(fù)雜的多一些。
  這是對(duì)比的效果圖,可以看到這是原始數(shù)據(jù),一幀點(diǎn)云可能是136MB,我們看到壓縮一千倍、一萬倍,信息會(huì)丟掉不少。
  下面討論關(guān)于未來,本來簡史我們很熟悉,包括人類簡史、未來簡史,包括赫拉利講到人類簡史說三個(gè)革命,一個(gè)是認(rèn)知革命,因?yàn)檎J(rèn)知革命會(huì)制造工具,還有一個(gè)是農(nóng)業(yè)革命可以養(yǎng)活更多的人,因?yàn)橛袀(gè)更多的人,才有人力去搞科學(xué)革命。
  在視頻編碼方面,我把認(rèn)知革命改成“采集革命”。視頻采集的深度、點(diǎn)云、以及壓縮感知,Nyquist采樣定理等對(duì)采集有很大影響。采集是編碼的源頭,采集會(huì)影響到編碼的框架設(shè)計(jì)。第二個(gè)計(jì)算革命,剛剛說農(nóng)業(yè)可以創(chuàng)造更多的糧產(chǎn),可以養(yǎng)活更多的人。在視頻編碼領(lǐng)域,能編碼,是因?yàn)橛?jì)算能力的支持。計(jì)算的初期是基于像素、后來是基于塊,現(xiàn)在有更多更復(fù)雜的計(jì)算。早期是CPU,后來GPU,現(xiàn)在有NPU。這些計(jì)算能力很強(qiáng)大,但是視頻編碼目前還沒有利用上這些計(jì)算能力。目前正在探索,利用這些計(jì)算能力現(xiàn)在在探索基于神經(jīng)網(wǎng)絡(luò)的編碼,就是想利用這種更高效的計(jì)算能力。第三個(gè)是科學(xué)革命,我認(rèn)為對(duì)于編碼來說是認(rèn)知革命。認(rèn)識(shí)視頻里的內(nèi)容,對(duì)內(nèi)容有所識(shí)別。這里面包括簡單的視覺特征,高級(jí)一點(diǎn)是深度學(xué)習(xí),更高級(jí)是類腦計(jì)算學(xué)習(xí)。這個(gè)過程是支持未來視頻編碼的方向。
  這三者相輔相成,采集有新東西了,計(jì)算能力要跟上。計(jì)算越強(qiáng)會(huì)支持采集。同樣對(duì)于認(rèn)知也是,計(jì)算能力更強(qiáng)也會(huì)加強(qiáng)認(rèn)知。所以這三者是相互支撐的關(guān)系。
  我們下面看采集革命,輸出的時(shí)候是離散的數(shù)字信號(hào),這里面最有名的就是奈奎斯特采樣定理,是要過采樣。4K、8K那么大,采集到的數(shù)據(jù)有很多是冗余的,是為了重建。
  但是這種采集,與人眼的處理差別是很大的。這里引入了壓縮感知,采樣時(shí)強(qiáng)調(diào)稀疏采樣。
  這里面一個(gè)直接的應(yīng)用,e是原圖象。采樣時(shí)通過稀疏采樣,只采樣20%的象素,采集到的是a,再基于稀疏圖象的原理還原成e。數(shù)據(jù)量大大降低。
  信號(hào)采集在時(shí)間上和幅度上都是離散的,這就是離散信號(hào)。但是離散信號(hào)帶來的問題就是數(shù)據(jù)量增加特別多。這都是過采樣的方式。
  但是人腦的采集過程是,一開始是光刺激發(fā)生,通過視網(wǎng)膜光電轉(zhuǎn)換和編碼,最后通過視網(wǎng)膜認(rèn)出來。從圖像出來到人腦把這個(gè)圖像認(rèn)出來,需要經(jīng)過160ms。肯定今天的采集技術(shù)是比人眼采集頻率高很多,但是智能分析識(shí)別上人要比設(shè)備高很多。
  人臉采集不一樣,上面是模擬信號(hào),下面是數(shù)據(jù)信號(hào),實(shí)際上我們?nèi)搜郾环Q之為神經(jīng)脈沖編碼,當(dāng)人看到一個(gè)東西如果沒有發(fā)生變化,是不發(fā)放神經(jīng)脈沖的,相當(dāng)于不傳信號(hào)。所以,人腦的功耗是特別的。如果人腦的功耗也很高,就會(huì)把大腦燒掉。所以,人是靠很低功耗的計(jì)算,來實(shí)現(xiàn)分析識(shí)別。
  這是一個(gè)很低功耗的圖象傳感器,區(qū)別于傳統(tǒng)的CMOS、CCD,做陣列刷新。這是一種事件驅(qū)動(dòng)的采集,對(duì)于事件的發(fā)生分析,精度要求很高效。
  計(jì)算革命我也有一些思考。一個(gè)是我們知道前端計(jì)算,對(duì)于視頻編解碼都有專門的芯片,比如早期的C-Cube的處理器,VCD、DVD都使用這種處理器。最近有很強(qiáng)的ARM處理器可以支持4K,Tesla在使用的H.265編解碼器,可以處理8K。最新的寒武紀(jì)深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)處理器。
  這里我們還是從變換說起,變換是視頻編碼很重要的模塊,最早的變化是基于8x8 DCT。DCT的好處是當(dāng)信號(hào)相關(guān)性很強(qiáng),相關(guān)系數(shù)達(dá)到0.95的時(shí)候,DCT就是最優(yōu)的變換。但是實(shí)際信號(hào)差別很大,如果圖像一旦有邊緣,DCT就變得不高效,因?yàn)橄嚓P(guān)性降低了。這是就提出了基于方向的變化,排列一下,分別進(jìn)行相關(guān)性變換。基于這種原理,擴(kuò)展出了DST,離散正弦變化。到了正弦變化之后還不算完,在H.265發(fā)展過程開始通過尋來找KLT最優(yōu)變換。在H.266提出了更新的做法,原來是離線訓(xùn)練,H.266中使用在線訓(xùn)練,通過前面一兩幀的數(shù)據(jù)在線訓(xùn)練。
  1987年,神經(jīng)網(wǎng)絡(luò)編碼提出。最近,Google開始引發(fā)關(guān)于神經(jīng)網(wǎng)絡(luò)編碼的革命。這么多年的發(fā)展,神經(jīng)網(wǎng)絡(luò)編碼的原理,基本上還是想通的。
  上文講的是神經(jīng)網(wǎng)絡(luò)可以進(jìn)行更多的計(jì)算,那么這里給一個(gè)例子,進(jìn)行這么多計(jì)算,作用在哪?左邊是縮倍率示意圖,右邊是編碼復(fù)雜度示意圖,我們關(guān)注最后面兩個(gè),一個(gè)是JPEG和Residual(基于神經(jīng)網(wǎng)絡(luò)的編碼)的GRU和CPU。壓縮倍率,JPEG和Residual的都是15倍。在計(jì)算復(fù)雜度上,如果把JPEG當(dāng)做是1,那么Residual在GPU上進(jìn)行的編碼復(fù)雜度是3200,在CPU上的是26萬。
  原來做濾波是做統(tǒng)計(jì),求一個(gè)最優(yōu)的濾波系數(shù)。這也可以用神經(jīng)網(wǎng)絡(luò)代替,基于神經(jīng)網(wǎng)絡(luò)做濾波,不訓(xùn)練,直接通過神經(jīng)網(wǎng)絡(luò)就能計(jì)算的特別好。
  前文是基于空域的濾波。還有基于時(shí)域的,像和幀之間的相關(guān)性,也可以用上,通過訓(xùn)練改善優(yōu)化,都能獲得性能的提升……
  神經(jīng)網(wǎng)絡(luò)也可以做生成預(yù)測(cè)。
  最后一塊是認(rèn)知革命。認(rèn)知革命是講前端處理都是基于塊,我們看到的塊都是像素值、是數(shù)。但是人腦處理的時(shí)候從邊緣到輪廓到對(duì)象,差別很大。如果更高效、更智能的編碼,應(yīng)該是基于特征的編碼,才可以做更高效的分析處理。
  近期就是基于特征的編碼(CDVA),最新的2018年的標(biāo)準(zhǔn)。視頻監(jiān)控是一個(gè)典型應(yīng)用。上百萬路視頻,如果是傳統(tǒng)的編碼,數(shù)據(jù)量達(dá)到1Tbps,如果是CDVA,則數(shù)據(jù)量降到10Gbps,上萬倍壓縮比。傳很少的數(shù)據(jù)達(dá)到分析識(shí)別的目的。


  紋理特征聯(lián)合編碼,現(xiàn)在已經(jīng)有一些方案了。一路傳視頻、一路傳特征,來輔助分析識(shí)別。
  總結(jié):
  4K正在普 ,8K是未來趨勢(shì),下一代標(biāo)準(zhǔn)值得關(guān)注
  采集革命進(jìn)一步擴(kuò)展了視覺數(shù)據(jù)的維度,豐富了視覺數(shù)據(jù)編碼的多樣性
  采集、計(jì)算和認(rèn)知技術(shù)的融合,使得智能編碼成為可能
  訪問:http://www.itdks.com/dakashuo/playback/1191,點(diǎn)擊視頻回放-立即報(bào)名,即可查看大會(huì)內(nèi)容回放。
  訪問:https://pan.baidu.com/s/1kVrDrp1,獲取大會(huì)PPT。
【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

相關(guān)熱詞搜索: 視頻編碼

上一篇:IT自動(dòng)化的商業(yè)價(jià)值

下一篇:最后一頁

相關(guān)閱讀:

專題