RTC(real time communication)實時通訊系統(tǒng)是最近互聯(lián)網(wǎng)應(yīng)用的一個新領(lǐng)域。RTC系統(tǒng)的應(yīng)用極其廣泛,我們常見的視頻電話,會議系統(tǒng),遠程桌面與控制都是RTC系統(tǒng)的一個應(yīng)用。在移動互聯(lián)網(wǎng)飛速發(fā)展的今天,各種應(yīng)用都渴望加入RTC的功能,實現(xiàn)用戶與企業(yè),用戶與用戶之間的音視頻交流。于是問題出現(xiàn)了,開發(fā)一個RTC系統(tǒng)需要什么技術(shù)儲備?
有人說只需要懂javascript就可以了。WebRTC的出現(xiàn)極大的降低了RTC的開發(fā)門檻。只需要編寫javascript代碼就可以實現(xiàn)瀏覽器之間的音視頻通話。且不論通話質(zhì)量,瀏覽器的兼容性,網(wǎng)絡(luò)穿透能力,那些不使用HTML的原生APP怎么辦?
又有人提出WebRTC也支持Native開發(fā),只要有懂C++和相關(guān)應(yīng)用平臺(Android,iOS,Windows,Mac)開發(fā)的軟件工程師就可以了。WebRTC確實可以在這些平臺上開發(fā)原生的應(yīng)用。將WebRTC編譯打包后嵌入APP可以實現(xiàn)RTC的功能,就是說能通了。但一個合格的RTC系統(tǒng)僅僅是能通就可以了嗎?
以音視頻通話為例,用戶期望的RTC應(yīng)用應(yīng)該是:通話不卡不掉低延時,聲音清晰真實無回聲,畫面流暢清晰無卡頓。如果直接采用上面WebRTC集成,我們很容易發(fā)現(xiàn),在大多數(shù)情況下,通話并不像原來想象的那樣完美。由于網(wǎng)絡(luò)的原因,通話斷斷續(xù)續(xù),延時很大。由于終端的適配不好,語音通話回聲嚴重,噪聲嚴重影響體驗。視頻不清楚,不流暢。
RTC系統(tǒng)的每一個部分都需要優(yōu)化,需要打磨,才能打造出完美的用戶體驗?,F(xiàn)在的問題是,開發(fā)一個優(yōu)秀的RTC系統(tǒng)需要具備哪些技術(shù)儲備呢?
先看終端方面。解決語音通話的問題,首先需要有合適的語音編解碼器,然后需要調(diào)整音頻處理模塊的算法。這里面內(nèi)容比較廣,有噪聲消除,回聲抑制,自動增益。比較前沿的還有多麥克風降噪,盲擴增強等等??傊@些都需要算法的儲備,涉及語音信號處理、統(tǒng)計信號處理等方面的內(nèi)容。有了算法還不夠,還需要有好的實現(xiàn)。各個平臺(Android,iOS,Windows,Mac)底層音頻系統(tǒng)也需要深入了解。有時候算法挺好的,但有些機器先天不足,比較特別,需要特殊處理。這需要投入許多人力物力對各種型號的硬件做適配。優(yōu)秀的系統(tǒng)可能需要適配幾百上千個不同的設(shè)備。
同樣的,對于視頻,我們需要對視頻編解碼器有深入的了解。這樣才能用最低的碼率展示清晰的視頻畫面。視頻的前后處理,比如降噪,增強(包括流行的美顏)也少不了。這就需要圖像與視頻信號處理。視頻數(shù)據(jù)量比較大,對底層視頻設(shè)備也需要深入研究。適配也少不了。
說完了終端,再說說網(wǎng)絡(luò)。網(wǎng)絡(luò)抗丟包是必備選項?;ヂ?lián)網(wǎng)不是一個可靠的實時音視頻傳輸網(wǎng)絡(luò)。在不可靠的網(wǎng)絡(luò)中實現(xiàn)可靠的音視頻傳輸考驗系統(tǒng)設(shè)計的能力。這里既有信道編碼的理論也有網(wǎng)絡(luò)對抗的實際經(jīng)驗。
如果要實現(xiàn)可靠的云服務(wù),遍布全球的服務(wù)器網(wǎng)絡(luò)也必不可少。高可用性,負載均衡等等。。。
現(xiàn)在我們知道開發(fā)一個RTC系統(tǒng)需要什么技術(shù)了。這個系統(tǒng)涉及到幾乎所有的網(wǎng)絡(luò)與音視頻處理的理論與實踐。
作者簡介:
鄭仲侯 聲網(wǎng)Agora.io音視頻構(gòu)架師
碩士畢業(yè)于上海交通大學電子工程系,信號處理專業(yè)。先后在National Instruments,SRS,DTS工作十余年。專注信號處理算法與實踐,加入Agora后從事音視頻引擎的開發(fā),持有雙麥降噪專利。