阿里云視頻云發(fā)布下一代實時交互解決方案AliRTC“零處理”

來源: 網易
作者:視頻云技術
時間:2021-11-09
16190
在2021云棲大會《產業(yè)視頻化創(chuàng)新與最佳實踐》視頻云主題論壇中,阿里云智能高級技術專家在《AliRTC開啟視頻互動零處理 時代》的主題演講中,發(fā)布了阿里云視頻云下一代實時交互解決方案—RTC“零處理”,同時分享了阿里云視頻云在RTC產品的探索和實踐,以下為演講內容整理。

22.jpg

在2021云棲大會《產業(yè)視頻化創(chuàng)新與最佳實踐》視頻云主題論壇中,阿里云智能高級技術專家在《AliRTC開啟視頻互動"零處理" 時代》的主題演講中,發(fā)布了阿里云視頻云下一代實時交互解決方案—RTC“零處理”,同時分享了阿里云視頻云在RTC產品的探索和實踐,以下為演講內容整理。

一、交互演進與挑戰(zhàn)

在過去幾年,視頻交互產品發(fā)生了什么變化?

我們認為RTC產品對行業(yè)產生了兩次非常重要的變革。

12.JPG

第一次變革是2014年開始的交互從圖文到音視頻的升級。

2014年,互聯(lián)網創(chuàng)業(yè)者與RTC產品供應商一起探索視頻互動的商業(yè)化, 教育、娛樂成為主要的突破方向, 基于全球范圍內的互動授課、秀場視頻連麥、多人交友互動,也大多在這時間點完成了商業(yè)與技術的成功結合。

2017年是一個標志性的時間點,RTC產品已經幫助頭部互聯(lián)網客戶實現了顛覆性發(fā)展,標志著互動視頻技術與在線互動商業(yè)模式的成熟。

接下來幾年更多的是不同體量、不同場景的規(guī)模復制,所以我們能看到,在2018年以及后續(xù)的幾年,市場上并沒有新場景、新互動的創(chuàng)新,而是基于不同內容、不同客群的業(yè)務復制, 視頻互動從頭部走向更多的細分市場。

第二個重要變革發(fā)生在2020年,受疫情影響,讓云視頻會議全面滲透,讓這個時間提前了至少5年。

這次市場的變化,我們不能稱之為一次技術革命,實際上對RTC產品并沒有新的訴求,也沒有產生新的互動場景和技術,但這次大規(guī)模的滲透,重新定義了供應商的市場格局,第一次讓云廠商成為了市場極其重要的一部分,讓市場從單一的會議廠商,分裂為云平臺+ 會議終端供應商,讓我們的客戶有了更多的選擇。

從2018年到現在我們沒有場景上的根本突破,是不是因為我們的技術上遇到了瓶頸?

帶著這樣的問題,阿里云對RTC場景技術進行了深入的技術評測,我們試圖發(fā)現整個行業(yè)大家的技術水位是什么樣的,不同于單項的視頻技術,RTC的評測要更為復雜。

例如,對視頻編碼,我們可以通過PSNR,SSIM,VMAF等來分析,對于視頻分類等視覺算法,我們可以通過ROC曲線來分析,但對視頻RTC來說,涉及的主觀感受非常多,是一件比較復雜的事情,目前業(yè)界也沒有統(tǒng)一的評測標準。

我們從這些影響用戶感受的指標里面抽出六個維度表征RTC的表現質量。

對評測感興趣的話可以關注我們的「視頻云技術」公眾號,里面詳細介紹了我們怎么進行自動化評測的,評測過程中我們會創(chuàng)造不同的網絡環(huán)境,檢測RTC在各方面的表現。

21.jpg

我們對行業(yè)里的RTC做了一些評測,發(fā)現有兩個特點。

第一,RTC有明顯的技術門檻,比如說綠色的框代表一類典型的RTC能力,由規(guī)模較小的團隊自研,投入較小,會有明顯的差距。

第二個是幾個比較大的供應商,包括在阿里云在內,外面這一圈,紅色的線、藍色的線,以及黃色的線,他們都處于相對比較一致的水平,但是沒有一家有特別優(yōu)秀的地方,所以技術同質化特別嚴重,大家基本上處于同樣的水平。

20.jpg

我們當前視頻的實時互動主要集中在線上線下場景,未來可能會有更廣闊的應用場景,比如說一些交互場景,VR操控類、虛擬現實類。

這時候我們會思考一個問題,我們的技術是不是已經發(fā)展到了瓶頸期,我們無法滿足未來更廣泛的需求,這后面的原因是什么?會不會是我們的技術發(fā)展到某個瓶頸了?因為技術通常是階躍式的發(fā)展,不能突破就會陷入在一個層次上。

二、“零處理”加速交互升級

我們希望分析一下,現在用戶的體驗到底怎么樣?我們現在的技術存在什么問題?

通過比較各家RTC供應商,我們發(fā)現一個比較有意思的點,就是大家有千分之二的卡頓率是難以消除的。50%、60%的丟包都可以做的很好,但是如果網絡帶寬受限,千分之二的卡頓就難以消除了。


我們有一些手段可以解決類似的問題,比如利用窄帶高清技術,我們可以通過復雜計算解決這些問題,也可以通過非標屏幕編碼類技術解決,但是實際上我們很難把這些技術進行非常廣泛的利用。

最根本的原因是我們會發(fā)現端側能力是有限制的,大家的手機各不相同,有可能有些人的手機特別好,可以做復雜算法,有些人手機差,無法進行復雜算法,同時,端的碎片化比較嚴重,要對所有端適配是比較困難的。


在應用上我們希望能夠提供更有趣的交互,比如說實時生成卡通人物形象,這在端上可以運行,但是只有少數非常強大的設備才能運行。

一個自然的想法是,我們是不是能突破當前的應用架構?

我們把一個完全依賴端能力的架構,逐步轉變成依靠云和端一起配合進行視頻傳輸處理的架構,基于這個想法我們提出了云處理+端渲染技術,目的是希望從云上提供強大的處理能力,端上負責渲染,只需要提供很少的處理能力就能完成比較好的處理效果,使大家在不同的手機上都能得到一樣的體驗。

10.JPG

這就是視頻云“零處理”解決方案的基本架構圖,在端上只需要進行比較簡單的視頻采集以及視頻傳輸,然后通過我們構建的覆蓋全球的GRTN網絡到達云端,云端使用GRTP的云端實時處理引擎對視頻進行處理,再把處理好的視頻傳到端上,端上只需要做簡單的呈現。這樣可以很好的解決剛才提到端計算能力不夠和碎片化的問題。

但是天下沒有免費的午餐,采用上面的架構,很容易發(fā)現幾個問題。

第一,我們的云上是不是能承受這么大規(guī)模的處理。

第二,云上能不能承擔這么大規(guī)模的成本。

第三,云上能不能持續(xù)提供這么多類型的處理服務。

我們自己的信心來自于幾個方面。

第一,通過阿里多年的積累,我們積累了業(yè)界最大規(guī)模的云上視頻處理集群,所以我們在技術上已經具備承擔超大規(guī)模處理的能力。

9.jpg

第二,關于成本。

下圖是我們處理的一張業(yè)務圖的示例圖,橫坐標是時間,縱坐標是資源使用量,黑色的線一種業(yè)務,紅色線是另一種業(yè)務,可以看到,每種業(yè)務都存在大量的業(yè)務空閑期,業(yè)務空閑期可以讓我們有大量資源供我們復用,當我們把多種業(yè)務混跑時,就能把資源利用起來,大幅度降低成本。

除了在時間上的混跑,我們也可以通過空間上的混跑和異構的混跑,將整體的成本降下來。

6.JPG

第三,由于我們背靠阿里集團,包括我們自己也有很多視頻算法處理積累,所以我們有機會持續(xù)不斷的提供豐富的算法和處理能力。

5.JPG

三、“零處理”實踐分享

接下來是阿里云視頻云在零處理的實踐。

12.JPG

第一個場景是使用MCU解放端側算力。

通常情況下,我們做RTC直播時,觀眾看到的直播畫面是通過RTMP協(xié)議來完成的,這種情況下由于延遲的原因觀眾是無法參與到直播互動的。要增強觀眾的互動性,需要大家都加入RTC網絡,每個端訂閱多個流對端的算力和網絡流量都是非常大的負擔。

我們通過云端的MCU把流合并,重新進入到RTC會議里,這樣觀眾可以通過RTC方式看到直播流,非常方便進行互動,同時也無需消耗過多的端上資源。這種模式我們稱為互動低延時模式,已經是我們一個成熟的產品能力。

11.JPG

第二個場景,云轉推。

這是一個我們打通阿里內部服務能力的例子,我們通過和阿里集團安全部的合作,將RTC的流通過內網和安全部的產品打通,減少了中間環(huán)節(jié),實現低成本、低延遲的內容審核。

10.JPG

第三個場景,云特效。

相信這個場景大家已經看過,利用云端的處理,我們實現了虛擬會議室,通過云端的MCU將所有人進行摳圖+貼圖,來提升視頻會議時的參會體驗,這是阿里內部開會時已經可以運用到、并看到的技術。


上面展示的實時虛擬形象,是依托GRTN實時傳輸網絡,將視頻流傳輸到云端,云端對視頻進行摳圖,變聲,卡通化等復雜的AI處理,終端只負責展示,從而實現了端側零處理。
“零處理“作為下一代實時交互解決方案,在云廠商中率先推出,解決了新交互時代因端側算力受限而無法實現的虛擬交互場景難題,充分利用云端一體的超精細算力,以云特效構建實時虛擬場景,是全面打開沉浸交互新世界的一項重要演進。

立即登錄,閱讀全文
版權說明:
本文內容來自于網易,本站不擁有所有權,不承擔相關法律責任。文章內容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權,請聯(lián)系管理員(zzx@kchuhai.com)刪除!
個人VIP