在2021云棲大會(huì)《產(chǎn)業(yè)視頻化創(chuàng)新與最佳實(shí)踐》視頻云主題論壇中,阿里云智能高級(jí)技術(shù)專家在《AliRTC開啟視頻互動(dòng)"零處理" 時(shí)代》的主題演講中,發(fā)布了阿里云視頻云下一代實(shí)時(shí)交互解決方案—RTC“零處理”,同時(shí)分享了阿里云視頻云在RTC產(chǎn)品的探索和實(shí)踐,以下為演講內(nèi)容整理。
在過去幾年,視頻交互產(chǎn)品發(fā)生了什么變化?
我們認(rèn)為RTC產(chǎn)品對(duì)行業(yè)產(chǎn)生了兩次非常重要的變革。
第一次變革是2014年開始的交互從圖文到音視頻的升級(jí)。
2014年,互聯(lián)網(wǎng)創(chuàng)業(yè)者與RTC產(chǎn)品供應(yīng)商一起探索視頻互動(dòng)的商業(yè)化, 教育、娛樂成為主要的突破方向, 基于全球范圍內(nèi)的互動(dòng)授課、秀場視頻連麥、多人交友互動(dòng),也大多在這時(shí)間點(diǎn)完成了商業(yè)與技術(shù)的成功結(jié)合。
2017年是一個(gè)標(biāo)志性的時(shí)間點(diǎn),RTC產(chǎn)品已經(jīng)幫助頭部互聯(lián)網(wǎng)客戶實(shí)現(xiàn)了顛覆性發(fā)展,標(biāo)志著互動(dòng)視頻技術(shù)與在線互動(dòng)商業(yè)模式的成熟。
接下來幾年更多的是不同體量、不同場景的規(guī)模復(fù)制,所以我們能看到,在2018年以及后續(xù)的幾年,市場上并沒有新場景、新互動(dòng)的創(chuàng)新,而是基于不同內(nèi)容、不同客群的業(yè)務(wù)復(fù)制, 視頻互動(dòng)從頭部走向更多的細(xì)分市場。
第二個(gè)重要變革發(fā)生在2020年,受疫情影響,讓云視頻會(huì)議全面滲透,讓這個(gè)時(shí)間提前了至少5年。
這次市場的變化,我們不能稱之為一次技術(shù)革命,實(shí)際上對(duì)RTC產(chǎn)品并沒有新的訴求,也沒有產(chǎn)生新的互動(dòng)場景和技術(shù),但這次大規(guī)模的滲透,重新定義了供應(yīng)商的市場格局,第一次讓云廠商成為了市場極其重要的一部分,讓市場從單一的會(huì)議廠商,分裂為云平臺(tái)+ 會(huì)議終端供應(yīng)商,讓我們的客戶有了更多的選擇。
從2018年到現(xiàn)在我們沒有場景上的根本突破,是不是因?yàn)槲覀兊募夹g(shù)上遇到了瓶頸?
帶著這樣的問題,阿里云對(duì)RTC場景技術(shù)進(jìn)行了深入的技術(shù)評(píng)測,我們?cè)噲D發(fā)現(xiàn)整個(gè)行業(yè)大家的技術(shù)水位是什么樣的,不同于單項(xiàng)的視頻技術(shù),RTC的評(píng)測要更為復(fù)雜。
例如,對(duì)視頻編碼,我們可以通過PSNR,SSIM,VMAF等來分析,對(duì)于視頻分類等視覺算法,我們可以通過ROC曲線來分析,但對(duì)視頻RTC來說,涉及的主觀感受非常多,是一件比較復(fù)雜的事情,目前業(yè)界也沒有統(tǒng)一的評(píng)測標(biāo)準(zhǔn)。
我們從這些影響用戶感受的指標(biāo)里面抽出六個(gè)維度表征RTC的表現(xiàn)質(zhì)量。
對(duì)評(píng)測感興趣的話可以關(guān)注我們的「視頻云技術(shù)」公眾號(hào),里面詳細(xì)介紹了我們?cè)趺催M(jìn)行自動(dòng)化評(píng)測的,評(píng)測過程中我們會(huì)創(chuàng)造不同的網(wǎng)絡(luò)環(huán)境,檢測RTC在各方面的表現(xiàn)。
我們對(duì)行業(yè)里的RTC做了一些評(píng)測,發(fā)現(xiàn)有兩個(gè)特點(diǎn)。
第一,RTC有明顯的技術(shù)門檻,比如說綠色的框代表一類典型的RTC能力,由規(guī)模較小的團(tuán)隊(duì)自研,投入較小,會(huì)有明顯的差距。
第二個(gè)是幾個(gè)比較大的供應(yīng)商,包括在阿里云在內(nèi),外面這一圈,紅色的線、藍(lán)色的線,以及黃色的線,他們都處于相對(duì)比較一致的水平,但是沒有一家有特別優(yōu)秀的地方,所以技術(shù)同質(zhì)化特別嚴(yán)重,大家基本上處于同樣的水平。
我們當(dāng)前視頻的實(shí)時(shí)互動(dòng)主要集中在線上線下場景,未來可能會(huì)有更廣闊的應(yīng)用場景,比如說一些交互場景,VR操控類、虛擬現(xiàn)實(shí)類。
這時(shí)候我們會(huì)思考一個(gè)問題,我們的技術(shù)是不是已經(jīng)發(fā)展到了瓶頸期,我們無法滿足未來更廣泛的需求,這后面的原因是什么?會(huì)不會(huì)是我們的技術(shù)發(fā)展到某個(gè)瓶頸了?因?yàn)榧夹g(shù)通常是階躍式的發(fā)展,不能突破就會(huì)陷入在一個(gè)層次上。
我們希望分析一下,現(xiàn)在用戶的體驗(yàn)到底怎么樣?我們現(xiàn)在的技術(shù)存在什么問題?
通過比較各家RTC供應(yīng)商,我們發(fā)現(xiàn)一個(gè)比較有意思的點(diǎn),就是大家有千分之二的卡頓率是難以消除的。50%、60%的丟包都可以做的很好,但是如果網(wǎng)絡(luò)帶寬受限,千分之二的卡頓就難以消除了。
我們有一些手段可以解決類似的問題,比如利用窄帶高清技術(shù),我們可以通過復(fù)雜計(jì)算解決這些問題,也可以通過非標(biāo)屏幕編碼類技術(shù)解決,但是實(shí)際上我們很難把這些技術(shù)進(jìn)行非常廣泛的利用。
最根本的原因是我們會(huì)發(fā)現(xiàn)端側(cè)能力是有限制的,大家的手機(jī)各不相同,有可能有些人的手機(jī)特別好,可以做復(fù)雜算法,有些人手機(jī)差,無法進(jìn)行復(fù)雜算法,同時(shí),端的碎片化比較嚴(yán)重,要對(duì)所有端適配是比較困難的。
在應(yīng)用上我們希望能夠提供更有趣的交互,比如說實(shí)時(shí)生成卡通人物形象,這在端上可以運(yùn)行,但是只有少數(shù)非常強(qiáng)大的設(shè)備才能運(yùn)行。
一個(gè)自然的想法是,我們是不是能突破當(dāng)前的應(yīng)用架構(gòu)?
我們把一個(gè)完全依賴端能力的架構(gòu),逐步轉(zhuǎn)變成依靠云和端一起配合進(jìn)行視頻傳輸處理的架構(gòu),基于這個(gè)想法我們提出了云處理+端渲染技術(shù),目的是希望從云上提供強(qiáng)大的處理能力,端上負(fù)責(zé)渲染,只需要提供很少的處理能力就能完成比較好的處理效果,使大家在不同的手機(jī)上都能得到一樣的體驗(yàn)。
這就是視頻云“零處理”解決方案的基本架構(gòu)圖,在端上只需要進(jìn)行比較簡單的視頻采集以及視頻傳輸,然后通過我們構(gòu)建的覆蓋全球的GRTN網(wǎng)絡(luò)到達(dá)云端,云端使用GRTP的云端實(shí)時(shí)處理引擎對(duì)視頻進(jìn)行處理,再把處理好的視頻傳到端上,端上只需要做簡單的呈現(xiàn)。這樣可以很好的解決剛才提到端計(jì)算能力不夠和碎片化的問題。
但是天下沒有免費(fèi)的午餐,采用上面的架構(gòu),很容易發(fā)現(xiàn)幾個(gè)問題。
第一,我們的云上是不是能承受這么大規(guī)模的處理。
第二,云上能不能承擔(dān)這么大規(guī)模的成本。
第三,云上能不能持續(xù)提供這么多類型的處理服務(wù)。
我們自己的信心來自于幾個(gè)方面。
第一,通過阿里多年的積累,我們積累了業(yè)界最大規(guī)模的云上視頻處理集群,所以我們?cè)诩夹g(shù)上已經(jīng)具備承擔(dān)超大規(guī)模處理的能力。
第二,關(guān)于成本。
下圖是我們處理的一張業(yè)務(wù)圖的示例圖,橫坐標(biāo)是時(shí)間,縱坐標(biāo)是資源使用量,黑色的線一種業(yè)務(wù),紅色線是另一種業(yè)務(wù),可以看到,每種業(yè)務(wù)都存在大量的業(yè)務(wù)空閑期,業(yè)務(wù)空閑期可以讓我們有大量資源供我們復(fù)用,當(dāng)我們把多種業(yè)務(wù)混跑時(shí),就能把資源利用起來,大幅度降低成本。
除了在時(shí)間上的混跑,我們也可以通過空間上的混跑和異構(gòu)的混跑,將整體的成本降下來。
第三,由于我們背靠阿里集團(tuán),包括我們自己也有很多視頻算法處理積累,所以我們有機(jī)會(huì)持續(xù)不斷的提供豐富的算法和處理能力。
三、“零處理”實(shí)踐分享
接下來是阿里云視頻云在零處理的實(shí)踐。
第一個(gè)場景是使用MCU解放端側(cè)算力。
通常情況下,我們做RTC直播時(shí),觀眾看到的直播畫面是通過RTMP協(xié)議來完成的,這種情況下由于延遲的原因觀眾是無法參與到直播互動(dòng)的。要增強(qiáng)觀眾的互動(dòng)性,需要大家都加入RTC網(wǎng)絡(luò),每個(gè)端訂閱多個(gè)流對(duì)端的算力和網(wǎng)絡(luò)流量都是非常大的負(fù)擔(dān)。
我們通過云端的MCU把流合并,重新進(jìn)入到RTC會(huì)議里,這樣觀眾可以通過RTC方式看到直播流,非常方便進(jìn)行互動(dòng),同時(shí)也無需消耗過多的端上資源。這種模式我們稱為互動(dòng)低延時(shí)模式,已經(jīng)是我們一個(gè)成熟的產(chǎn)品能力。
第二個(gè)場景,云轉(zhuǎn)推。
這是一個(gè)我們打通阿里內(nèi)部服務(wù)能力的例子,我們通過和阿里集團(tuán)安全部的合作,將RTC的流通過內(nèi)網(wǎng)和安全部的產(chǎn)品打通,減少了中間環(huán)節(jié),實(shí)現(xiàn)低成本、低延遲的內(nèi)容審核。
第三個(gè)場景,云特效。
相信這個(gè)場景大家已經(jīng)看過,利用云端的處理,我們實(shí)現(xiàn)了虛擬會(huì)議室,通過云端的MCU將所有人進(jìn)行摳圖+貼圖,來提升視頻會(huì)議時(shí)的參會(huì)體驗(yàn),這是阿里內(nèi)部開會(huì)時(shí)已經(jīng)可以運(yùn)用到、并看到的技術(shù)。
上面展示的實(shí)時(shí)虛擬形象,是依托GRTN實(shí)時(shí)傳輸網(wǎng)絡(luò),將視頻流傳輸?shù)皆贫?,云端?duì)視頻進(jìn)行摳圖,變聲,卡通化等復(fù)雜的AI處理,終端只負(fù)責(zé)展示,從而實(shí)現(xiàn)了端側(cè)零處理。
“零處理“作為下一代實(shí)時(shí)交互解決方案,在云廠商中率先推出,解決了新交互時(shí)代因端側(cè)算力受限而無法實(shí)現(xiàn)的虛擬交互場景難題,充分利用云端一體的超精細(xì)算力,以云特效構(gòu)建實(shí)時(shí)虛擬場景,是全面打開沉浸交互新世界的一項(xiàng)重要演進(jìn)。