聲網(wǎng)Agora 開發(fā)者社區(qū)聯(lián)合 InfoQ 共同策劃,邀請了聲網(wǎng)Agora 開發(fā)者社區(qū)中的多位技術(shù)專家,從視頻傳輸、計(jì)算機(jī)視覺、編解碼標(biāo)準(zhǔn)發(fā)展、WebRTC、機(jī)器學(xué)習(xí)、音頻技術(shù)等角度,共同撰寫「2021 實(shí)時互動技術(shù)展望系列」,一窺技術(shù)新趨勢。本文源于對北京大學(xué)王選計(jì)算機(jī)研究所的張行功教授的采訪。本系列內(nèi)容由聲網(wǎng) Agora 開發(fā)者社區(qū) 與 InfoQ 聯(lián)合策劃,并由 InfoQ 審校,首發(fā)于 InfoQ。
在 RTC 技術(shù)領(lǐng)域,如何兼顧實(shí)時視頻傳輸?shù)牡脱訒r和視頻質(zhì)量,以及如何評定視頻傳輸質(zhì)量,始終都是備受關(guān)注的話題。隨著 5G 的商用,視頻傳輸在協(xié)議層、應(yīng)用層又面臨著一些急需解決的變革。盡管不少 AI 模型在編解碼、傳輸層已經(jīng)開始落地應(yīng)用,但其實(shí) AI 模型還有很大的提升空間。我們邀請了北京大學(xué)王選計(jì)算機(jī)研究所的張行功教授,聊聊 2021 年視頻傳輸技術(shù)、VR 視頻以及 AI 模型在 RTC 領(lǐng)域應(yīng)用,將會發(fā)生哪些改進(jìn)與革新。
實(shí)時網(wǎng)絡(luò)擁塞控制
聲網(wǎng)開發(fā)者社區(qū):您曾經(jīng)在演講中分享過實(shí)時網(wǎng)絡(luò)擁塞控制的研究思路。有提到數(shù)據(jù)驅(qū)動的網(wǎng)絡(luò)模型,用于預(yù)測網(wǎng)絡(luò)狀況,您還引入了神經(jīng)網(wǎng)絡(luò)。您認(rèn)為目前網(wǎng)絡(luò)擁塞控制算法的瓶頸是什么?引入神經(jīng)網(wǎng)絡(luò)帶來哪些改變?
張行功:我們先看一下網(wǎng)絡(luò)擁塞控制的目標(biāo)是什么,尤其在實(shí)時音視頻傳輸方面。第一個目標(biāo)就是要求公平,其次就是低延時,最后是帶寬使用率。
實(shí)現(xiàn)上述三個目標(biāo),最大的問題是無法預(yù)測其他用戶行為方式,互聯(lián)網(wǎng)是一個開放共享的網(wǎng)絡(luò)。
另一個瓶頸就是由于存在網(wǎng)絡(luò)延遲,無法獲得最新的網(wǎng)絡(luò)狀態(tài)。
所以這些障礙會限制我們的決策,即決定應(yīng)該發(fā)多少數(shù)據(jù)量,才能保證低延遲、高帶寬,尤其在物理鏈路波動劇烈的 4G/5G 移動網(wǎng)絡(luò)。
在一個不清楚網(wǎng)絡(luò)狀態(tài)和動態(tài)變化的網(wǎng)絡(luò)環(huán)境下,要實(shí)現(xiàn)上述三個目標(biāo),那么這就是擁塞控制面臨的最大挑戰(zhàn)。傳統(tǒng)上有很多種方法對網(wǎng)絡(luò)帶寬或者網(wǎng)絡(luò)延時進(jìn)行探測、建模,例如 AIMD、delay-based 等方法。但是由于互聯(lián)網(wǎng)太過于復(fù)雜,尤其是互聯(lián)網(wǎng)用戶的行為不可預(yù)測,傳統(tǒng)上用數(shù)學(xué)模型的方法來描述網(wǎng)絡(luò)狀態(tài)是已被證明不夠準(zhǔn)確的了。
基于上述原因,我們引入了神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)方法,進(jìn)行擁塞控制研究。主要包括兩部分,一部分是公平性目標(biāo),可采用數(shù)學(xué)模型,這是針對網(wǎng)絡(luò)模型中可以抽象出來的,而且并且可以去驗(yàn)證和重現(xiàn)的特征,進(jìn)行數(shù)學(xué)建模。另一部分是網(wǎng)絡(luò)狀態(tài),尤其像現(xiàn)在的互聯(lián)網(wǎng)狀態(tài),它缺乏比較明確的數(shù)學(xué)模型,那么采用統(tǒng)計(jì)和機(jī)器學(xué)習(xí)就是一個比較好的方法。
聲網(wǎng)開發(fā)者社區(qū):神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí),被當(dāng)做工具應(yīng)用到了很多 RTC 技術(shù)環(huán)節(jié)中,比如網(wǎng)絡(luò)傳輸、編解碼。僅視頻網(wǎng)絡(luò)傳輸層面,您認(rèn)為 AI 模型這個工具是否已經(jīng)被物盡其用了?還有哪些可以改進(jìn)或發(fā)揮的空間?
張行功:在我看來,現(xiàn)在機(jī)器學(xué)習(xí)在網(wǎng)絡(luò)中的使用,還處于一個非常初級的階段。它的潛力還沒有被充分挖掘出來,目前大家只是嘗試用它解決一些簡單問題,但有時效果并不好。
這里涉及到一個問題,什么地方適合用機(jī)器學(xué)習(xí)或 AI 模型,什么時候不適用?
其實(shí)并不是所有的問題,只要把數(shù)據(jù)給機(jī)器學(xué)習(xí)的模型,它都能處理。因?yàn)檫@也違背了人類對智能的定義。智能本來就分成演繹推理部分和歸納推理部分。AI 模型只能代表歸納部分,演繹推理的職能它還承擔(dān)不了。
所以從這個角度來講,我覺得機(jī)器學(xué)習(xí)的潛力遠(yuǎn)遠(yuǎn)的沒有被發(fā)揮出來,尤其在網(wǎng)絡(luò)領(lǐng)域,還有很多新的技術(shù)沒有被發(fā)掘。
一個可能的改進(jìn)方向,從目前來看,不管在網(wǎng)絡(luò)傳輸還在編碼部分的應(yīng)用上,AI 模型一般都對數(shù)據(jù)有依賴,那么一旦換了一個數(shù)據(jù)集或換了一個場景,它的性能表現(xiàn)就會變差。
這其實(shí)證明了現(xiàn)在的機(jī)器學(xué)習(xí)算法有很大的局限性,其中最重要的一個問題就是模型在設(shè)計(jì)時,并沒有針對于數(shù)據(jù)集的通用性和局限性,設(shè)計(jì)出一個泛化性能更好的,適用于不同場景的積極學(xué)習(xí)的模型。
所以,我覺得未來機(jī)器學(xué)習(xí)的發(fā)展,更會從一種模型復(fù)用和小樣本學(xué)習(xí)的角度去設(shè)計(jì),而不僅僅在神經(jīng)網(wǎng)絡(luò)本身去做優(yōu)化。舉個例子,我們在做傳輸?shù)臅r候經(jīng)常講預(yù)測帶寬。我們可以根據(jù)歷史的數(shù)據(jù),去預(yù)測未來的網(wǎng)絡(luò)帶寬。但是訓(xùn)練出來的模型,一旦換了一個網(wǎng)絡(luò)環(huán)境,比如從 4G 到 5G,這時訓(xùn)練后的模型到新的環(huán)境下,泛化性就特別差。這也就是為什么一些新的機(jī)器學(xué)習(xí)的方法,會從架構(gòu)上來改進(jìn)。
聲網(wǎng)開發(fā)者社區(qū):目前大家普遍都是在 4G 網(wǎng)絡(luò)下進(jìn)行實(shí)驗(yàn)和應(yīng)用落地。不過大家也在關(guān)注 5G。您認(rèn)為 5G 商用后,視頻傳輸相關(guān)的技術(shù),比如從協(xié)議層面、算法層面,會需要作出哪些改進(jìn)來適應(yīng)這樣的網(wǎng)絡(luò)變化?
張行功:5G 出現(xiàn)后,會對傳輸層協(xié)議的要求更高,這里面主要有幾個原因:首先是由于 5G 的帶寬更大了,然后是由于 5G 的抖動,不管是延遲抖動還是帶寬波動都會更大,已經(jīng)遠(yuǎn)遠(yuǎn)超出了 4G 范疇。
這里先解釋一下,為什么 5G 網(wǎng)絡(luò)抖動會更大?通過測量發(fā)現(xiàn),5G 是通過時間片方式調(diào)度頻譜資源,這意味著將某個時間片分配給一個用戶時,它帶寬資源是獨(dú)占的,但在其他時刻是得不到網(wǎng)絡(luò)資源的。因此,如果我們從非常細(xì)的粒度,比如從某一個數(shù)據(jù)包的角度來看,它的延時波動以及數(shù)據(jù)包之間的帶寬波動都會非常劇烈。5G 的理論帶寬是 1GB/s,所以一旦出現(xiàn)某個時間片未將資源分配你的時候,那么你的帶寬波動會非常大。
除了以上兩點(diǎn),5G 會帶來邊緣計(jì)算的普及,未來很多數(shù)據(jù)和服務(wù)都會放在一些邊緣服務(wù)器上。邊緣計(jì)算加上 5G 的整個物理帶寬和延時的提升,會倒逼傳輸層協(xié)議的改進(jìn)。不管是傳統(tǒng)的 TCP 還是這些年大家比較關(guān)注的像 QUIC、BBR,以及一些私有協(xié)議,F(xiàn)在的傳輸層協(xié)議已經(jīng)存在 40 年了,存在較大變革的需求。
另外從應(yīng)用層的角度講,比如說我們說的 ABR 或其它業(yè)務(wù)層相關(guān)的算法,隨著 5G 商用后,都會在邊緣節(jié)點(diǎn)發(fā)揮作用。因此,內(nèi)容緩存算法、動態(tài)自適應(yīng)、分布式視頻編碼和處理等,都會遷移到邊緣節(jié)點(diǎn)上,而且對這些算法的性能和交互能力提出更高的要求。
5G 會推動 VR、AR、云游戲等實(shí)時視頻應(yīng)用場景的發(fā)展。從應(yīng)用層的算法,包括剛剛提到的海量節(jié)點(diǎn)、小存儲,到實(shí)時交互、邊緣節(jié)點(diǎn)的業(yè)務(wù)層算法等都會得到改進(jìn)。
VR 視頻相關(guān)技術(shù)
聲網(wǎng)開發(fā)者社區(qū):您的研究中也有涉及到 VR 領(lǐng)域。您認(rèn)為目前 VR 視頻類應(yīng)用,最急需解決的技術(shù)問題有哪些?分別有什么解決思路?
張行功:從廣義來講,VR 視頻包含全景視頻、AR、云游戲,因?yàn)楝F(xiàn)在很多云游戲也是基于視頻的實(shí)時交互。所以這些都是屬于 VR 視頻的應(yīng)用的體現(xiàn)形式。實(shí)際上其中最核心的問題有三個:
第一個問題就是它是一種實(shí)時交互式的視頻。交互式視頻就存在一個延時的問題,不管是我們看視頻,還是去打云游戲,只要用戶做一動作,或頭部移動一個角度,畫面就需要在 20ms 之內(nèi)做出相應(yīng)的反饋。否則,人的體驗(yàn)就會下降。
這對網(wǎng)絡(luò)傳輸就提出了很高的要求。因?yàn)槲覀冎?20ms 是一個端到端的延時,而且是一個 round trip time,這里包含了網(wǎng)絡(luò)、編解碼、服務(wù)器處理、客戶端渲染的延時。即使是未來實(shí)現(xiàn)邊緣計(jì)算,想實(shí)現(xiàn) 20ms 的端到端往返延時也絕非易事。
第二個核心的問題就是人的運(yùn)動預(yù)測。例如,我們看 VR 視頻的時候會有頭部的運(yùn)動。未來會有 6DoF 的視頻,我們不僅會有頭部運(yùn)動,還會在虛擬場景中運(yùn)動。在這種情況下,我們?nèi)绾稳ヮA(yù)測人的運(yùn)動是一個非常重要且急需解決的問題。
運(yùn)動預(yù)測主要是解決第一個延遲問題,從物理角度來講,20ms 是一個難以達(dá)到的延時,F(xiàn)在業(yè)界提出的解決方案是通過預(yù)測人的運(yùn)動,然后預(yù)加載數(shù)據(jù)。相當(dāng)于在用戶沒有看到這一部分的視頻畫面的時候,我就把這個數(shù)據(jù)下載到本地。當(dāng)用戶移動到某個位置時,實(shí)際上就是從本地來獲取這個畫面,延時就小很多了。
但是,人的行為是有很大的隨機(jī)性,所以隨之而來的問題是如何去預(yù)測人的行為?比如我們觀看 VR 視頻時,每個人感興趣的內(nèi)容和位置可能都不一樣。這是目前急需解決的一個難題。
第三個問題就是高通量數(shù)據(jù)。我們現(xiàn)在看到的這些 VR 視頻可能還只是 4K、8K 分辨率的,它的碼率大約在 100MB 級別。但是未來可能會有 16K,甚至 24K 的視頻。16K 是什么概念呢?相當(dāng)于我們在電視上看的 720P 平面視頻。我們在電腦顯示器上可觀看的視角大約 30 度。如果將 720P 的視頻延展為 360 度,這時候的數(shù)據(jù)量就相當(dāng)于一個 16K 視頻。未來如果加入 6DoF 視頻,支持用戶在 VR 視頻場景中自由活動,則會有更大的數(shù)據(jù)量。另外,AR、云游戲等場景也會產(chǎn)生越來越多的數(shù)據(jù)。
我們看到,硬件在不斷發(fā)展。蘋果已經(jīng)可以實(shí)現(xiàn)單眼 8K 的 VR 終端了。但網(wǎng)絡(luò)的發(fā)展實(shí)際上還沒能跟上硬件的步伐。如此來看,很長時間以內(nèi),網(wǎng)絡(luò)傳輸?shù)钠款i會始終存在。
在這方面,我們做了幾個探索,一個是 QoE 驅(qū)動的視點(diǎn)傳輸。我們根據(jù)用戶看的區(qū)域,傳輸對應(yīng)的數(shù)據(jù)。這是一個比較有效的手段,已經(jīng)在很多地方應(yīng)用。
另一方面的研究是針對云游戲的。云游戲?qū)儆?VR 視頻的一個分支,對延遲更加敏感,數(shù)據(jù)量也很大,同時用戶交互行為更加復(fù)雜,很難進(jìn)行動作預(yù)測。所以我們探索一種零延遲的畫面預(yù)測方法,在一定程度上來解決交互延遲的問題。
聲網(wǎng)開發(fā)者社區(qū):一直以來,您都在研究事視頻通信、網(wǎng)絡(luò)傳輸相關(guān)的課題。從您的角度來看,您認(rèn)為 2020 年這些方向出現(xiàn)了哪些值得一提的研究進(jìn)展?您認(rèn)為 2021 年最重要的技術(shù)趨勢是什么?
張行功:從視頻通信、網(wǎng)絡(luò)傳輸方面,在 2020 年出現(xiàn)了一些比較新的場景,例如云游戲和云桌面。其本質(zhì)上就是實(shí)時視頻,但是技術(shù)挑戰(zhàn)會比傳統(tǒng)的視頻更大。因?yàn)榫拖裰胺治龅,它的延時要求很苛刻,人的行為很難預(yù)測。2020 年有一些技術(shù)嘗試,但是效果不是很理想。所以在 2021 年,業(yè)界還會有更多新角度的嘗試來解決這些問題。
第二個就是面向 5G 以及衛(wèi)星網(wǎng)絡(luò)的研究和應(yīng)用。5G 網(wǎng)絡(luò)已經(jīng)開始商用,衛(wèi)星網(wǎng)絡(luò)方面,我們已經(jīng)可以看到 Elon Musk 的 StarLink 也開始提供測試服務(wù)了。所以面向新型網(wǎng)絡(luò)的低延時傳輸研究也會是 2021 的熱點(diǎn)之一。
視頻傳輸方面。在 2020 年,機(jī)器學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等方法更多地被用在了網(wǎng)絡(luò)領(lǐng)域,包括傳輸層、應(yīng)用層的視頻通信。在 2021 年將會有更多這方面的研究,提供它的實(shí)用性和泛化能力。
最后,視頻傳輸質(zhì)量評價也是 2020 年重要的熱點(diǎn)之一。由于現(xiàn)在網(wǎng)絡(luò)視頻的種類很多,包括實(shí)時視頻、直播、短視頻、VR 視頻等,但傳統(tǒng)上視頻質(zhì)量評價都是面向編碼,但對傳輸?shù)脑u價一直沒有一個很好的框架。視頻傳輸質(zhì)量的監(jiān)控和評價是業(yè)務(wù)的核心,包括由數(shù)據(jù)監(jiān)測、質(zhì)量評價到故障報警、修復(fù)的一套閉環(huán)的質(zhì)量體系,將會是 2021 年被持續(xù)關(guān)注的熱點(diǎn)之一。