海外語(yǔ)聊房通話時(shí)長(zhǎng)提升5%的背后，AI降噪送出極致助攻

來(lái)源：聲網(wǎng)

作者：聲網(wǎng)

時(shí)間：2023-07-14

在社交出海的大潮中，語(yǔ)聊房一直是最熱門(mén)的社交場(chǎng)景之一，盡管社交玩法一直在迭代創(chuàng)新，但經(jīng)典的語(yǔ)聊房場(chǎng)景憑借互動(dòng)性強(qiáng)、聊天話題廣、陌生人社交等屬性備受?chē)?guó)內(nèi)外用戶的喜愛(ài)。在海外市場(chǎng)，Yalla、Clubhouse、Uplive、Mico等都已是人們熟知的語(yǔ)聊房平臺(tái)。

海外語(yǔ)聊房通話時(shí)長(zhǎng)提升5%的背后

AI降噪送出極致助攻

但在海外市場(chǎng)開(kāi)疆拓域，其實(shí)并沒(méi)有想的那么簡(jiǎn)單。相比國(guó)內(nèi)成熟的網(wǎng)絡(luò)條件、設(shè)備性能，海外地區(qū)普遍存在網(wǎng)絡(luò)條件差、設(shè)備參差不齊等情況，嚴(yán)重影響語(yǔ)聊房中的用戶互動(dòng)體驗(yàn)，也對(duì)APP廠商出海帶來(lái)了嚴(yán)峻的技術(shù)挑戰(zhàn)。

海外語(yǔ)聊房音頻質(zhì)量面臨痛點(diǎn)

開(kāi)播環(huán)境差、網(wǎng)絡(luò)條件差、設(shè)備參差不齊

1、語(yǔ)聊房場(chǎng)景需要頻繁的開(kāi)麥互動(dòng)，但海外地區(qū)用戶的開(kāi)播環(huán)境普遍不好，例如東南亞、南美等地區(qū)，環(huán)境噪聲較大，通過(guò)傳統(tǒng)降噪技術(shù)往往無(wú)法有效消除復(fù)雜的噪音，特別是在唱歌互動(dòng)的場(chǎng)景，降噪算法可能會(huì)抑制唱歌的尾音，嚴(yán)重影響演唱效果，影響用戶體驗(yàn)。

2、海外運(yùn)營(yíng)商數(shù)量多且類(lèi)型復(fù)雜，各地區(qū)網(wǎng)絡(luò)條件參差不齊，例如東南亞諸多島國(guó)尤為明顯、OpenSignal的一份報(bào)告就發(fā)現(xiàn)，新加坡的移動(dòng)數(shù)據(jù)下載速度最快，為47.5 Mbps，而速度第二的越南連新加坡一半都不到，才到20.6 Mbps，馬來(lái)西亞、印度尼西亞、泰國(guó)、菲律賓則更低。在印尼，市場(chǎng)上就有6個(gè)主流的運(yùn)營(yíng)商，而當(dāng)?shù)剡€有大量3G、4G的用戶，網(wǎng)絡(luò)環(huán)境更加復(fù)雜，幾乎很難順暢地進(jìn)行跨國(guó)跨地區(qū)群聊。

3、海外用戶設(shè)備和國(guó)內(nèi)差別較大，尤其是第三世界國(guó)家設(shè)備類(lèi)型復(fù)雜且低端機(jī)覆蓋很大，來(lái)自聲網(wǎng)《實(shí)時(shí)萬(wàn)象》的數(shù)據(jù)顯示，印度、中東、南美地區(qū)使用RTC應(yīng)用的低端機(jī)占比高，均超過(guò)30%，南美為45.8%，接近中國(guó)大陸（23.9%）的2倍。想要把用戶體驗(yàn)做到最好，就需要兼顧到產(chǎn)品在不同機(jī)型上的運(yùn)行狀況，因此設(shè)備適配是每個(gè)出海產(chǎn)品都要投入大量資源來(lái)解決的問(wèn)題。

針對(duì)以上海外音頻場(chǎng)景中的用戶體驗(yàn)痛點(diǎn)，聲網(wǎng)通過(guò)鳳鳴AI引擎、全球化服務(wù)部署以及弱網(wǎng)對(duì)抗策略、復(fù)雜機(jī)型適配等技術(shù)能力，可以對(duì)音頻質(zhì)量的提升實(shí)現(xiàn)多重優(yōu)化，帶來(lái)極致的高音質(zhì)音頻體驗(yàn)。據(jù)悉，某東南亞頭部語(yǔ)音社交應(yīng)用在線上虛擬社交場(chǎng)景中使用聲網(wǎng)鳳鳴·AI降噪后，通話時(shí)長(zhǎng)增加了5%。

鳳鳴AI引擎

支持100+非穩(wěn)態(tài)噪聲消除兼顧語(yǔ)音高保真

相比傳統(tǒng)的降噪算法，聲網(wǎng)鳳鳴AI引擎的AI降噪算法在降噪效果上有巨大提升，傳統(tǒng)降噪算法在處理穩(wěn)態(tài)噪聲時(shí)效果較好，在處理非穩(wěn)態(tài)噪聲時(shí)，降噪效果會(huì)有明顯回退，穩(wěn)態(tài)噪聲一般指噪聲聲壓級(jí)的變化較小，且不隨時(shí)間有大幅度的變化，如電機(jī)聲、固定轉(zhuǎn)速的摩擦、轉(zhuǎn)動(dòng)等噪聲。非穩(wěn)態(tài)噪聲指噪聲強(qiáng)度隨時(shí)間而有起伏波動(dòng)，有的呈周期性噪聲，如錘擊，有的呈無(wú)規(guī)律的起伏噪聲，如交通噪聲、小孩哭叫等。聲網(wǎng)自研的AI降噪算法可以支持實(shí)時(shí)互動(dòng)中100+非穩(wěn)態(tài)噪聲消除，降噪效果實(shí)現(xiàn)了巨大提升。

同時(shí)，針對(duì)語(yǔ)聊房、直播等場(chǎng)景下用戶會(huì)外放唱歌的情況，聲網(wǎng)也進(jìn)一步優(yōu)化了唱歌場(chǎng)景下的AI降噪模型，并提供48khz的高音質(zhì)降噪算法，一方面可有效避免降噪算法抑制唱歌的尾音，保障演唱效果，另一方面還可以消除插拔耳機(jī)等操作引入的電流音噪聲。我們可以通過(guò)下方的對(duì)比音頻可以更直觀的體驗(yàn)電流音噪聲的消除效果。

降噪會(huì)導(dǎo)致聲音失真，是大家常常會(huì)擔(dān)心的問(wèn)題。聲網(wǎng)AI降噪在強(qiáng)降噪的同時(shí)還能兼顧高保真，即使在語(yǔ)聊房多人同時(shí)說(shuō)話的場(chǎng)景下，也可以做到在抑制噪聲的同時(shí)不對(duì)說(shuō)話人語(yǔ)音產(chǎn)生損傷，使每個(gè)人的聲音都聽(tīng)得清晰。同時(shí)，還實(shí)現(xiàn)了在不增加額外運(yùn)算量的前提下，對(duì)遠(yuǎn)場(chǎng)語(yǔ)音具有明顯的混響抑制能力。當(dāng)一位用戶在房間里離麥克風(fēng)比較遠(yuǎn)的時(shí)候，也依然可以使對(duì)端聽(tīng)到清晰的聲音，而不是模糊的聲音。

聲網(wǎng)AI降噪算法相比傳統(tǒng)降噪算法，計(jì)算復(fù)雜度都要高很多，對(duì)此一些選擇在東南亞、南美等低端機(jī)覆蓋率高地區(qū)的出海企業(yè)也會(huì)擔(dān)心，既要享受AI算法帶來(lái)的良好效果體驗(yàn)，又要有媲美傳統(tǒng)算法的性能，真的能做到兩全其美么？答案就是聲網(wǎng)自研的AI推理引擎，通過(guò)計(jì)算圖優(yōu)化等一系列優(yōu)化加速技術(shù)，在保障降噪算法精度的同時(shí)，可以使得AI降噪算法在Android、iOS、Mac、Windows、Web等主流平臺(tái)以低精度損傷、高性能、低功耗方式運(yùn)行，使海外很多地區(qū)用戶的低端機(jī)設(shè)備不卡不燙，幫助出海企業(yè)解決后顧之憂。

全球化部署與弱網(wǎng)對(duì)抗

保障流暢的互動(dòng)體驗(yàn)

海外復(fù)雜的網(wǎng)絡(luò)環(huán)境會(huì)造成實(shí)時(shí)互動(dòng)中的卡頓、延時(shí)高等糟糕體驗(yàn)，這也是困擾很多出海企業(yè)的重要因素。聲網(wǎng)憑借在出海市場(chǎng)的多年沉淀與打磨，具備全球化服務(wù)部署的能力。在海外底層網(wǎng)絡(luò)優(yōu)化方面，聲網(wǎng)一方面使用網(wǎng)絡(luò)覆蓋質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)來(lái)指導(dǎo)建設(shè)全球邊緣基礎(chǔ)資源、提高網(wǎng)絡(luò)覆蓋，調(diào)整接入策略，優(yōu)化關(guān)鍵性指標(biāo)，提升用戶體驗(yàn)。另一方面，聲網(wǎng)還擁有完善的全球供應(yīng)商管理體系，采用公有云、私有云等多種資源，覆蓋200+國(guó)家和地區(qū)，特別針對(duì)東南亞、中東、北美和國(guó)內(nèi)中小城市、小運(yùn)營(yíng)商做網(wǎng)絡(luò)優(yōu)化。

以印度地區(qū)為例，印度地域遼闊，有28個(gè)邦，數(shù)字消費(fèi)人口規(guī)模世界第二，僅次于中國(guó)。但印度的通信基礎(chǔ)設(shè)施短板卻較為明顯，印度擁有數(shù)百家網(wǎng)絡(luò)運(yùn)營(yíng)商,網(wǎng)絡(luò)關(guān)系錯(cuò)綜復(fù)雜，具有基站數(shù)量不足、頻帶有限、數(shù)據(jù)容量不足等問(wèn)題，導(dǎo)致用戶的網(wǎng)絡(luò)體驗(yàn)不佳。為了保證用戶接入能夠做到低延遲、低抖動(dòng)、降低端到端延遲，聲網(wǎng)在各個(gè)邦采用不同的網(wǎng)絡(luò)運(yùn)營(yíng)商資源進(jìn)行測(cè)試，得出用于覆蓋不同邦最優(yōu)的接入網(wǎng)絡(luò)運(yùn)營(yíng)商資源，通過(guò)最佳覆蓋點(diǎn)和最佳網(wǎng)絡(luò)運(yùn)營(yíng)商組合的模式在當(dāng)?shù)亟⒘硕鄠€(gè)覆蓋節(jié)點(diǎn)，提升了印度地區(qū)的用戶體驗(yàn)。

面對(duì)海外地區(qū)普遍存在的弱網(wǎng)環(huán)境，很多出海企業(yè)往往束手無(wú)策，對(duì)此，聲網(wǎng)擁有一套抗弱網(wǎng)傳輸與抗丟包算法，結(jié)合網(wǎng)絡(luò)探測(cè)（如延時(shí)估計(jì)、帶寬估計(jì)等）、抗丟包技術(shù)、自適應(yīng)jitter buffer、網(wǎng)絡(luò)擁塞控制策略等，可以實(shí)現(xiàn)80%丟包情況下，依然能保障音視頻通話流暢，為用戶在各種網(wǎng)絡(luò)環(huán)境下提供流暢的互動(dòng)體驗(yàn)。

對(duì)于欠發(fā)達(dá)地區(qū)參差不齊的設(shè)備狀況，在與眾多出?？蛻舻亩嗄陮?shí)踐與打磨中，聲網(wǎng)已經(jīng)可以支持適配30000+終端機(jī)型，例如One Plus 3T、Samsung Galaxy A10s、Redmi Note7 Pro等在某地區(qū)還依然流行的特殊老舊機(jī)型，為每位用戶帶來(lái)流暢絲滑的體驗(yàn)。

鳳鳴·空間音頻帶來(lái)沉浸式音頻體驗(yàn)

伴隨元宇宙、AIGC等技術(shù)的發(fā)展，在語(yǔ)聊房等社交場(chǎng)景加入沉浸式的音頻效果也成為一種趨勢(shì)，海外市場(chǎng)亦是如此。聲網(wǎng)鳳鳴AI引擎同樣具備空間音頻的技術(shù)能力，通過(guò)純軟件算法方案，模擬頭部球面區(qū)域立體聲場(chǎng)，利用范圍音頻、人聲模糊、空氣衰減模擬等能力，完美模擬現(xiàn)實(shí)聽(tīng)覺(jué)感受。當(dāng)用戶操作相應(yīng)角色在虛擬場(chǎng)景里移動(dòng)，可以實(shí)現(xiàn)根據(jù)虛擬人物的面部朝向、音源朝向、遠(yuǎn)近距離與上下高度，呈現(xiàn)不同聲音效果。

以范圍音頻為例，在空間聽(tīng)覺(jué)的研究和實(shí)現(xiàn)中，頭部相關(guān)聯(lián)的傳遞函數(shù)（HRTF）（Head Related Transfer Functions）與頭部相關(guān)聯(lián)的沖激響應(yīng)（HRIR）占有十分重要的地位。而聲網(wǎng)基于HRTF頭相關(guān)傳遞函數(shù)、心理感知聲學(xué)、聲源指向模擬等算法自研了一整套3D聲場(chǎng)渲染引擎?？梢詣?dòng)態(tài)模擬空間中任意角度、朝向的聲音在傳遞到左右耳時(shí)聲音發(fā)生的變化從而實(shí)現(xiàn)了高精度的聲音方位渲染。并且為了追求極致的聽(tīng)感與極致的可用性，渲染引擎以極小的算力要求，支持48kHz全頻帶、多路音頻渲染，讓你在移動(dòng)端不多費(fèi)流量、不用擔(dān)心算力也能暢享多人高清音質(zhì)互動(dòng)。

音源的朝向?qū)ξ覀兊穆?tīng)覺(jué)也會(huì)有直接的影響，例如一個(gè)人背對(duì)著你說(shuō)話相比正對(duì)著你說(shuō)話聲音會(huì)顯得比較“悶”，因?yàn)楸硨?duì)著你說(shuō)話時(shí)聲音需要繞過(guò)身體這個(gè)障礙，不同頻率的聲波繞過(guò)障礙物時(shí)的能量衰減程度不同。聲網(wǎng)3D空間音效還提供音源朝向功能，通過(guò)聲學(xué)建模的方式可以模擬任意角度的音源方向帶來(lái)的音色差異，最終通過(guò)模擬不同音源的位置與朝向，實(shí)現(xiàn)音量、音色的差異，從而完美模擬現(xiàn)實(shí)聽(tīng)覺(jué)的感受。

此外，人在真實(shí)環(huán)境中對(duì)上下、前后這兩個(gè)方向的感知是比較模糊。這是因?yàn)槿说亩浠旧鲜菍?duì)稱的，相比水平方向，在垂直方向上左右耳聲音的音量、延遲基本相同就不足以用來(lái)區(qū)分方向了。所以在虛擬空間中，聲網(wǎng)還對(duì)這些方向的聽(tīng)感區(qū)分做了增強(qiáng)，讓用戶在“虛擬空間”中可以擁有超越現(xiàn)實(shí)的聽(tīng)音辨位能力。

音視頻出海音頻媒體語(yǔ)音社交

上一篇：用戶吐槽Bing Chat的“富有創(chuàng)意”模式，功能已經(jīng)被微軟閹割成毫無(wú)創(chuàng)意

原文鏈接：點(diǎn)擊前往 >

版權(quán)說(shuō)明：本文內(nèi)容來(lái)自于聲網(wǎng)，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán)，請(qǐng)聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章