半夜美女视频,国产美女视频福利,免费观看美女视频软件

　　本文根據(jù)RTC2017實(shí)時(shí)互聯(lián)網(wǎng)大會(huì)，下一代云端音視頻技術(shù)專場，馬思偉老師的演講，整理得來。

　　馬思偉：

　　北京大學(xué)信息科學(xué)技術(shù)學(xué)院教授， 2005年博士畢業(yè)于中國科學(xué)院計(jì)算技術(shù)研究所。2005年8月至2007年8月在美國南加州大學(xué)進(jìn)行博士后研究，之后到北大工作至今。2013年獲國家自然科學(xué)基金委優(yōu)青項(xiàng)目資助，2015年入選中組部第二批青年拔尖人才計(jì)劃。主要研究方向?yàn)橐曨l編碼及處理，已發(fā)表論文200余篇，已獲授權(quán)發(fā)明專利40多項(xiàng)。擔(dān)任IEEE Transactions on Circuits and System for Video Technolgoy（TCSVT）、Journal of Visual Communication and Representation（JVCIR）期刊編委（AE）、中國圖象圖形學(xué)學(xué)會(huì)理事、AVS視頻組聯(lián)合組長等。自2002年起，陸續(xù)參與組織AVS1、AVS+、AVS2一系列國家標(biāo)準(zhǔn)的制定，曾獲國家技術(shù)發(fā)明獎(jiǎng)二等獎(jiǎng)、國家科學(xué)技術(shù)進(jìn)步獎(jiǎng)二等獎(jiǎng)等獎(jiǎng)勵(lì)。

　　首先我們回顧一下視頻編碼的歷史，視頻編碼起源于廣播電視，在很長一段時(shí)間里視頻編解碼的變革主要推動(dòng)力是來自于廣播電視。當(dāng)然，今天我們看互聯(lián)網(wǎng)的視頻編碼是速度越來越快，昨天在ICET2017年世界大會(huì)上，ICET的主席還說到以前一個(gè)編碼是十年更新一版，但是現(xiàn)在從H.265最新進(jìn)展的來看，可能不到十年。

　　我們看到這個(gè)圖，大家可能在小的時(shí)候見到過，電視上一個(gè)圓盤，這是最主要的電視測(cè)試信號(hào)，這是1951年第一部數(shù)字電視和廣播。這個(gè)起源是脈沖調(diào)制編碼，相當(dāng)于一個(gè)脈沖一個(gè)象素值，比較早的是用固定的比特，用8比特表示圖象電視信號(hào)編碼傳輸。這是在廣播電視領(lǐng)域。

　　到了我們計(jì)算機(jī)行業(yè)，計(jì)算機(jī)誕生于1946年，但是在計(jì)算機(jī)上出現(xiàn)圖象是到了1957年， Kirsch是第一幅數(shù)字圖象的創(chuàng)造者，他用他的兒子做了第一幅數(shù)字圖像。2007年是這一幅圖象誕生50周年，現(xiàn)在是60周年了，原來的小baby現(xiàn)在也已經(jīng)是50、60歲的老頭了。今天的數(shù)字圖象，已經(jīng)到了4K甚至8K。

　　到了編碼，編碼的原理是因?yàn)橐曨l里面有很多冗余，包括連續(xù)兩幅圖象出現(xiàn)的時(shí)域冗余，還有人眼對(duì)高頻信息不敏感的感知冗余�；谶@個(gè)原理，現(xiàn)在視頻編解碼框架從早期261開始，一直到今天266快出來了，框架基本上沒有太多變化。

　　在這個(gè)框架里面，編碼技術(shù)可以主要分成三大塊。變換編碼，剛剛提到通過變換把高頻信息、空域、時(shí)域的冗余信息去掉。還有預(yù)測(cè)編碼，還有熵編碼。這是三大塊編碼的技術(shù)。

　　三大塊編碼技術(shù)，從1950年左右開始。1946年計(jì)算機(jī)誕生，1948年是相對(duì)信息論，50年代初開始了數(shù)字化開始視頻數(shù)字編碼時(shí)代。在早期由于計(jì)算能力限制，基本上是基于象素處理，用統(tǒng)計(jì)模型去處理。計(jì)算能力增強(qiáng)了之后現(xiàn)在有基于塊的處理。原來只能是基于圖象去做，后面才可以基于塊的處理，基于塊的運(yùn)動(dòng)估計(jì)、運(yùn)動(dòng)補(bǔ)償，像塊大小也可以變化，今天我們看到的H.264、265都是這樣。

　　再看當(dāng)下的視頻編碼技術(shù)進(jìn)展。首先是空間的分辨率，從原來的小圖象到標(biāo)清、到高清、再到超高清。第二，是時(shí)間分辨率，從原來的15幀，還有更高的20幀，到120。第三，采樣精度，現(xiàn)在的HDR高動(dòng)態(tài)范圍電視，至少是10比特了，但是10比特夠不夠，將來還會(huì)發(fā)展，也可能到了20比特。第四，視點(diǎn)數(shù)和視場范圍，這兩個(gè)是密切相關(guān)的。視頻傳的不是一路視頻，可能是兩路，可能是多路，這是視點(diǎn)數(shù)。視頻的范圍，看到的角度，越來越寬，這是視場范圍。第五，模型數(shù)據(jù)。模型數(shù)據(jù)是包括輪廓對(duì)象的刻劃。深度數(shù)據(jù)，還包括特征，對(duì)圖像內(nèi)容、對(duì)象的認(rèn)識(shí)。還有是點(diǎn)云，完全可以把對(duì)象重建出來，遠(yuǎn)景重現(xiàn)就依賴這項(xiàng)技術(shù)。

　　模型編碼，是標(biāo)準(zhǔn)之外的編碼。模型編碼這個(gè)概念也是比較久了，大概在80年代后期，一直到90年代中期的時(shí)候，曾經(jīng)有一個(gè)很大的呼聲，模型編碼是第二類編碼，但是今天為止我們發(fā)現(xiàn)二代始終沒上臺(tái)，始終在用原來的二代。模型編碼的概念很光，可以把原基于象素的編碼都可以涵蓋，也是模型，只不過它的模型是基于信號(hào)模型。當(dāng)然我們熟悉的是對(duì)象模型，這個(gè)概念很新，但是它也沒有用起來，也是有很多問題，在這里提到場景的解析，人和場地的解析。

　　更進(jìn)一步，包括對(duì)人，比如人的身體、臉可以建更高精度的模型。所以這對(duì)應(yīng)表格上是在早期過去編碼歷史也有反應(yīng)，包括基于人臉模型，甚至人臉哭和笑，只要是做好模型，將來傳很少的數(shù)據(jù)就可以還原。當(dāng)然最后邊的發(fā)展最后還提到智能編碼，這是綜合了信號(hào)與視覺的模型，基于學(xué)習(xí)的視頻編碼。

　　再看看視頻編碼的發(fā)展趨勢(shì)。4K越來越流行。我們看到互聯(lián)網(wǎng)廣播，包括最近廣東也開會(huì)提出下一步要提出4K電視廣播技術(shù)，我們北京也提出2022年冬奧會(huì)是8K的試播。上圖可以對(duì)比一下，有測(cè)試8K，左上角的高清多么小。當(dāng)然8K視頻不只是分辨率的問題，還有配套的技術(shù)，包括采樣精度、幀率和聲音。

　　這是10億象素的相機(jī)拍攝的一張照片，圖片一直放大，可以清楚的看到“太和殿”三個(gè)字。

　　剛剛說的主要是分辨率的增長。分辨率上去之后，并不是說要傳一個(gè)更大的視頻，對(duì)于后端來說，意味著可以提供更多的視頻應(yīng)用形式，比如AR和VR�，F(xiàn)在4K做VR的視覺效果還是有問題的，還是需要更高的視頻帶寬和視頻精度去傳輸。模型編碼，對(duì)AR也有更大的提升作用。

　　如果看挑戰(zhàn)，第一是數(shù)據(jù)量的壓縮，依然比較嚴(yán)峻。8K、4K、HDR這樣的視頻，原始數(shù)據(jù)級(jí)是60Gbps。

　　第二個(gè)挑戰(zhàn)是，從壓縮到分析。剛剛講到視頻編碼的第一個(gè)推動(dòng)作用是廣播電視，看到更好的視覺質(zhì)量。但是到今天為止，世界上好多視頻，比如監(jiān)控，并不是人要去看的，是計(jì)算機(jī)要去看的。我們沒有人去盯監(jiān)控視頻，希望計(jì)算機(jī)來能夠完成分析。目前的壓縮是面向存儲(chǔ)和傳輸，降低帶寬占用，但是分析的支持相當(dāng)弱。所以，很多視頻分析的研究是在壓縮完之后進(jìn)行。但是，隨著現(xiàn)在前期分析識(shí)別技術(shù)越來越強(qiáng)，很多視頻分析開始在視頻編碼時(shí)就進(jìn)行智能分析、智能編碼。

　　最新進(jìn)展我也快速過一下，一個(gè)是大家最關(guān)心的JEM266，高通推動(dòng)新一代的發(fā)展，最早是在MPEG會(huì)議提出，提出HM—KTA—1.0，到2020年制定新的標(biāo)準(zhǔn)。

　　JEM的性能有很大提升。客觀性測(cè)試上，編碼效率已經(jīng)提升了30%，復(fù)雜度增加了12倍，這對(duì)編碼實(shí)現(xiàn)還是很有壓力的。這是剛剛出來的雛形，后端肯定會(huì)在復(fù)雜度和性能之間的做更多優(yōu)化做更多技術(shù)。

　　最近已經(jīng)有幾家平臺(tái)基于JEM做了一些嘗試，可以看到他們的測(cè)試結(jié)果。在SDR、HDR、360video三個(gè)平臺(tái)，可以看到基本上原來的碼率下一半的時(shí)候可以達(dá)到同等的要求。這個(gè)對(duì)8K很有吸引力，

　　從固定精度運(yùn)動(dòng)矢量到自適應(yīng)精度運(yùn)動(dòng)矢量，離預(yù)測(cè)中心比較近是，用高精度，比較遠(yuǎn)時(shí)用低精度，以此來節(jié)省運(yùn)動(dòng)矢量編碼的碼率。

　　第二個(gè)是關(guān)于劃分，劃分模式太多，大家在選擇起來比較頭疼。

　　再說一下360，基本上是把投影拼接，拼接完了之后再壓縮編碼。在這個(gè)環(huán)節(jié)里面最重要的是投影數(shù)據(jù)，投影數(shù)據(jù)決定你要壓縮什么、丟失什么，對(duì)整個(gè)VR的體驗(yàn)影響很多。這是很重要的方向。

　　從圖象這塊我們可以看到全景視頻投影，從立方體、八面體、二十面體、球體，JEM里面有十幾種投影方式。

　　對(duì)于質(zhì)量評(píng)價(jià)不一樣，當(dāng)然這種質(zhì)量評(píng)價(jià)也是影響你編碼工具的設(shè)計(jì)，這兒有一個(gè)WSPSNR的概念因?yàn)樗菑那蛎嫱兜狡矫嫔先�，有些�?shù)據(jù)丟了，如何計(jì)算WSPSNR很難，當(dāng)然還有很多其他的方式。

　　剛剛講到JEM的技術(shù)。像光場這塊原來是聚焦一個(gè)圖象，現(xiàn)在是把不同方向的內(nèi)容光線記錄下來，一遍是利用相機(jī)陣列，或者微透鏡成像。光場圖像壓縮，JPEG比較積極，它是在2017年1月份發(fā)布光場圖象壓縮平臺(tái)。

　　在這里我們做了初步探索，對(duì)光場圖象里面有很多問題，每一個(gè)小透鏡采集的光和圖象不一樣，中間有很多差異。弄完之后實(shí)際上每個(gè)濾波就是一個(gè)視頻，每一個(gè)小透鏡就是一個(gè)小圖象，這些差異需要處理。

　　再后來數(shù)據(jù)采集就是點(diǎn)云采集，把人臉模型變成動(dòng)畫場面。后面我們要把三維場景傳輸過去，這是下一步場景三維模型建模的技術(shù)發(fā)展方向。在這塊MPE也是比較迅速。

　　在今年4微分發(fā)布的CFP，大概10月份確立第一個(gè)驗(yàn)證平臺(tái)，這個(gè)是類似于AR、VR可以把動(dòng)態(tài)模型用三維模型傳輸過去。

　　這是序列編碼框架，把編碼數(shù)據(jù)包裝到每一個(gè)盒子里面，當(dāng)然對(duì)于點(diǎn)云的數(shù)據(jù)要復(fù)雜的多一些。

　　這是對(duì)比的效果圖，可以看到這是原始數(shù)據(jù)，一幀點(diǎn)云可能是136MB，我們看到壓縮一千倍、一萬倍，信息會(huì)丟掉不少。

　　下面討論關(guān)于未來，本來簡史我們很熟悉，包括人類簡史、未來簡史，包括赫拉利講到人類簡史說三個(gè)革命，一個(gè)是認(rèn)知革命，因?yàn)檎J(rèn)知革命會(huì)制造工具，還有一個(gè)是農(nóng)業(yè)革命可以養(yǎng)活更多的人，因?yàn)橛袀€(gè)更多的人，才有人力去搞科學(xué)革命。

　　在視頻編碼方面，我把認(rèn)知革命改成“采集革命”。視頻采集的深度、點(diǎn)云、以及壓縮感知，Nyquist采樣定理等對(duì)采集有很大影響。采集是編碼的源頭，采集會(huì)影響到編碼的框架設(shè)計(jì)。第二個(gè)計(jì)算革命，剛剛說農(nóng)業(yè)可以創(chuàng)造更多的糧產(chǎn)，可以養(yǎng)活更多的人。在視頻編碼領(lǐng)域，能編碼，是因?yàn)橛?jì)算能力的支持。計(jì)算的初期是基于像素、后來是基于塊，現(xiàn)在有更多更復(fù)雜的計(jì)算。早期是CPU，后來GPU，現(xiàn)在有NPU。這些計(jì)算能力很強(qiáng)大，但是視頻編碼目前還沒有利用上這些計(jì)算能力。目前正在探索，利用這些計(jì)算能力現(xiàn)在在探索基于神經(jīng)網(wǎng)絡(luò)的編碼，就是想利用這種更高效的計(jì)算能力。第三個(gè)是科學(xué)革命，我認(rèn)為對(duì)于編碼來說是認(rèn)知革命。認(rèn)識(shí)視頻里的內(nèi)容，對(duì)內(nèi)容有所識(shí)別。這里面包括簡單的視覺特征，高級(jí)一點(diǎn)是深度學(xué)習(xí)，更高級(jí)是類腦計(jì)算學(xué)習(xí)。這個(gè)過程是支持未來視頻編碼的方向。

　　這三者相輔相成，采集有新東西了，計(jì)算能力要跟上。計(jì)算越強(qiáng)會(huì)支持采集。同樣對(duì)于認(rèn)知也是，計(jì)算能力更強(qiáng)也會(huì)加強(qiáng)認(rèn)知。所以這三者是相互支撐的關(guān)系。

　　我們下面看采集革命，輸出的時(shí)候是離散的數(shù)字信號(hào)，這里面最有名的就是奈奎斯特采樣定理，是要過采樣。4K、8K那么大，采集到的數(shù)據(jù)有很多是冗余的，是為了重建。

　　但是這種采集，與人眼的處理差別是很大的。這里引入了壓縮感知，采樣時(shí)強(qiáng)調(diào)稀疏采樣。

　　這里面一個(gè)直接的應(yīng)用，e是原圖象。采樣時(shí)通過稀疏采樣，只采樣20%的象素，采集到的是a，再基于稀疏圖象的原理還原成e。數(shù)據(jù)量大大降低。

　　信號(hào)采集在時(shí)間上和幅度上都是離散的，這就是離散信號(hào)。但是離散信號(hào)帶來的問題就是數(shù)據(jù)量增加特別多。這都是過采樣的方式。

　　但是人腦的采集過程是，一開始是光刺激發(fā)生，通過視網(wǎng)膜光電轉(zhuǎn)換和編碼，最后通過視網(wǎng)膜認(rèn)出來。從圖像出來到人腦把這個(gè)圖像認(rèn)出來，需要經(jīng)過160ms。肯定今天的采集技術(shù)是比人眼采集頻率高很多，但是智能分析識(shí)別上人要比設(shè)備高很多。

　　人臉采集不一樣，上面是模擬信號(hào)，下面是數(shù)據(jù)信號(hào)，實(shí)際上我們?nèi)搜郾环Q之為神經(jīng)脈沖編碼，當(dāng)人看到一個(gè)東西如果沒有發(fā)生變化，是不發(fā)放神經(jīng)脈沖的，相當(dāng)于不傳信號(hào)。所以，人腦的功耗是特別的。如果人腦的功耗也很高，就會(huì)把大腦燒掉。所以，人是靠很低功耗的計(jì)算，來實(shí)現(xiàn)分析識(shí)別。

　　這是一個(gè)很低功耗的圖象傳感器，區(qū)別于傳統(tǒng)的CMOS、CCD，做陣列刷新。這是一種事件驅(qū)動(dòng)的采集，對(duì)于事件的發(fā)生分析，精度要求很高效。

　　計(jì)算革命我也有一些思考。一個(gè)是我們知道前端計(jì)算，對(duì)于視頻編解碼都有專門的芯片，比如早期的C-Cube的處理器，VCD、DVD都使用這種處理器。最近有很強(qiáng)的ARM處理器可以支持4K，Tesla在使用的H.265編解碼器，可以處理8K。最新的寒武紀(jì)深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)處理器。

　　這里我們還是從變換說起，變換是視頻編碼很重要的模塊，最早的變化是基于8x8 DCT。DCT的好處是當(dāng)信號(hào)相關(guān)性很強(qiáng)，相關(guān)系數(shù)達(dá)到0.95的時(shí)候，DCT就是最優(yōu)的變換。但是實(shí)際信號(hào)差別很大，如果圖像一旦有邊緣，DCT就變得不高效，因?yàn)橄嚓P(guān)性降低了。這是就提出了基于方向的變化，排列一下，分別進(jìn)行相關(guān)性變換。基于這種原理，擴(kuò)展出了DST，離散正弦變化。到了正弦變化之后還不算完，在H.265發(fā)展過程開始通過尋來找KLT最優(yōu)變換。在H.266提出了更新的做法，原來是離線訓(xùn)練，H.266中使用在線訓(xùn)練，通過前面一兩幀的數(shù)據(jù)在線訓(xùn)練。

　　1987年，神經(jīng)網(wǎng)絡(luò)編碼提出。最近，Google開始引發(fā)關(guān)于神經(jīng)網(wǎng)絡(luò)編碼的革命。這么多年的發(fā)展，神經(jīng)網(wǎng)絡(luò)編碼的原理，基本上還是想通的。

　　上文講的是神經(jīng)網(wǎng)絡(luò)可以進(jìn)行更多的計(jì)算，那么這里給一個(gè)例子，進(jìn)行這么多計(jì)算，作用在哪？左邊是縮倍率示意圖，右邊是編碼復(fù)雜度示意圖，我們關(guān)注最后面兩個(gè)，一個(gè)是JPEG和Residual（基于神經(jīng)網(wǎng)絡(luò)的編碼）的GRU和CPU。壓縮倍率，JPEG和Residual的都是15倍。在計(jì)算復(fù)雜度上，如果把JPEG當(dāng)做是1，那么Residual在GPU上進(jìn)行的編碼復(fù)雜度是3200，在CPU上的是26萬。

　　原來做濾波是做統(tǒng)計(jì)，求一個(gè)最優(yōu)的濾波系數(shù)。這也可以用神經(jīng)網(wǎng)絡(luò)代替，基于神經(jīng)網(wǎng)絡(luò)做濾波，不訓(xùn)練，直接通過神經(jīng)網(wǎng)絡(luò)就能計(jì)算的特別好。

　　前文是基于空域的濾波。還有基于時(shí)域的，像和幀之間的相關(guān)性，也可以用上，通過訓(xùn)練改善優(yōu)化，都能獲得性能的提升……

　　神經(jīng)網(wǎng)絡(luò)也可以做生成預(yù)測(cè)。

　　最后一塊是認(rèn)知革命。認(rèn)知革命是講前端處理都是基于塊，我們看到的塊都是像素值、是數(shù)。但是人腦處理的時(shí)候從邊緣到輪廓到對(duì)象，差別很大。如果更高效、更智能的編碼，應(yīng)該是基于特征的編碼，才可以做更高效的分析處理。

　　近期就是基于特征的編碼（CDVA），最新的2018年的標(biāo)準(zhǔn)。視頻監(jiān)控是一個(gè)典型應(yīng)用。上百萬路視頻，如果是傳統(tǒng)的編碼，數(shù)據(jù)量達(dá)到1Tbps，如果是CDVA，則數(shù)據(jù)量降到10Gbps，上萬倍壓縮比。傳很少的數(shù)據(jù)達(dá)到分析識(shí)別的目的。