一站式落地AI實(shí)時(shí)語(yǔ)音對(duì)話，騰訊云TRTC開(kāi)啟AI交互新玩法

來(lái)源：騰訊云音視頻

作者：騰訊云音視頻

時(shí)間：2024-09-09

在人工智能技術(shù)日益普及的今天，GPT-4o所展現(xiàn)出的實(shí)時(shí)語(yǔ)音對(duì)話能力再次吸引了大量關(guān)注。

在人工智能技術(shù)日益普及的今天，GPT-4o所展現(xiàn)出的實(shí)時(shí)語(yǔ)音對(duì)話能力再次吸引了大量關(guān)注。但AI語(yǔ)音助手其實(shí)并不新鮮，“你好，Siri”這句話，大家都已經(jīng)說(shuō)了好多年。那為什么GPT-4o的發(fā)布，仍能夠再次喚起人們對(duì)AI語(yǔ)音的暢想？答案的關(guān)鍵或許在于GPT-4o比Siri們，快得多。

速度對(duì)于語(yǔ)音AI界面非常重要。我們與AI交互的流暢度，一方面取決于大模型理解生成的效率，另一方面依賴于網(wǎng)絡(luò)傳輸?shù)乃俣?。大模型就像大腦，網(wǎng)絡(luò)傳輸則像神經(jīng)系統(tǒng)，傳遞大腦的信號(hào)。而傳統(tǒng)AI語(yǔ)音與GPT-4o之間的速度差異，很大一部分就來(lái)自于網(wǎng)絡(luò)傳輸延遲。傳統(tǒng)AI語(yǔ)音一般采用WebSocket方案。這一方案應(yīng)用廣泛，但方案基于TCP協(xié)議構(gòu)建，一來(lái)一回延遲就要2-3秒，網(wǎng)絡(luò)狀況不良時(shí)甚至需要3-4秒。而GPT-4o等新一代AI語(yǔ)音則采用基于WebRTC的實(shí)時(shí)語(yǔ)音方案，延遲可低至毫秒級(jí)，且抗弱網(wǎng)能力更強(qiáng)。正是這一核心技術(shù)的突破，讓GPT-4o能夠在幾百毫秒的時(shí)間內(nèi)便響應(yīng)音頻輸入，速度達(dá)到人類正常對(duì)話水準(zhǔn)。騰訊云在RTC技術(shù)上有著深厚積累，在該領(lǐng)域長(zhǎng)期處于亞太第一的領(lǐng)先地位，每日支撐上行時(shí)長(zhǎng)超30億分鐘，能夠幫助大模型有效構(gòu)建實(shí)時(shí)音視頻互動(dòng)能力。

AI+RTC，大模型卓越的自然語(yǔ)言理解及處理能力結(jié)合超低延遲的音視頻傳輸，讓人機(jī)之間實(shí)時(shí)、生動(dòng)的交流對(duì)話成為現(xiàn)實(shí)。在社交陪伴、智能客服、線上教育、呼叫中心等眾多場(chǎng)景中，這樣實(shí)時(shí)自然的對(duì)話交流體驗(yàn)都具備廣闊的應(yīng)用空間。對(duì)于開(kāi)發(fā)者來(lái)說(shuō)，在應(yīng)用中落地AI實(shí)時(shí)語(yǔ)音能力也有多種方式，可以選擇直接調(diào)用大模型廠商提供的具備端到端多模態(tài)互動(dòng)能力的AI服務(wù)，也可以集成音視頻云廠商的解決方案，例如騰訊云實(shí)時(shí)音視頻TRTC的一站式對(duì)話式AI解決方案。但目前GPT-4o的聲音API尚未開(kāi)放，即使開(kāi)放后，直接調(diào)用AI服務(wù)的話，開(kāi)發(fā)者很難對(duì)輸入輸出進(jìn)行后續(xù)二次處理（對(duì)于開(kāi)發(fā)者的研發(fā)能力有較高要求，想要達(dá)到最佳的使用效果，需要自行處理各個(gè)環(huán)節(jié)延遲、降噪、打斷、AI上下文管理等細(xì)節(jié)能力）。而TRTC對(duì)話式AI解決方案將一整套的技術(shù)框架完整封裝，能夠很好地幫客戶解決接入的效率和效果問(wèn)題，幫助開(kāi)發(fā)者快速實(shí)現(xiàn)適配自己業(yè)務(wù)場(chǎng)景的AI實(shí)時(shí)對(duì)話服務(wù)。因此，對(duì)于當(dāng)下想要追逐AI實(shí)時(shí)語(yǔ)音互動(dòng)風(fēng)口的企業(yè)來(lái)說(shuō)，選擇TRTC對(duì)話式AI解決方案顯然是更優(yōu)的選擇。

毫秒級(jí)實(shí)時(shí)響應(yīng)，流暢自然的交互體驗(yàn)

TRTC對(duì)話式AI方案，一天落地AI實(shí)時(shí)語(yǔ)音

騰訊云實(shí)時(shí)音視頻TRTC基于騰訊長(zhǎng)期積累的低成本、低延時(shí)、高品質(zhì)的全鏈路實(shí)時(shí)音視頻技術(shù)，精準(zhǔn)的語(yǔ)音轉(zhuǎn)文字（STT）能力，并整合業(yè)內(nèi)領(lǐng)先的LLM/TTS方案進(jìn)行深度優(yōu)化，在實(shí)現(xiàn)音視頻數(shù)據(jù)高效采集、處理、傳輸?shù)幕A(chǔ)上，疊加智能降噪、智能打斷、上下文管理等豐富能力，為開(kāi)發(fā)者提供端到端的、毫秒級(jí)實(shí)時(shí)響應(yīng)的、流暢自然的AI實(shí)時(shí)語(yǔ)音能力，幫助企業(yè)在最短的時(shí)間內(nèi)落地對(duì)話式AI應(yīng)用。

TRTC對(duì)話式AI解決方案一站式提供從音視頻采集、處理、傳輸?shù)皆贫薃I處理服務(wù)的全鏈路能力?？蛻舳藨?yīng)用通過(guò)TRTC SDK捕獲音頻并發(fā)送至云端，云端接收后將其發(fā)送至AI服務(wù)進(jìn)行處理。STT（自動(dòng)語(yǔ)音識(shí)別）將音頻轉(zhuǎn)換為文本，同時(shí)進(jìn)行情感分析和擬人對(duì)話處理。處理后的文本交由LLM（大型語(yǔ)言模型）進(jìn)一步理解和生成。最后，生成的文本通過(guò)TTS（文本轉(zhuǎn)語(yǔ)音）模塊轉(zhuǎn)換成語(yǔ)音并發(fā)布回客戶端應(yīng)用。

基于RTC協(xié)議，全鏈路深度優(yōu)化

對(duì)話總延遲低至1000ms以內(nèi)

TRTC對(duì)話式AI解決方案對(duì)音視頻輸入→STT→LLM→TTS→音視頻輸出的整條AI對(duì)話鏈路都進(jìn)行了深度優(yōu)化，AI對(duì)話總延遲低至1000ms，媲美人類對(duì)話反應(yīng)速度。其中，TRTC依托騰訊云遍布全球的3200+加速節(jié)點(diǎn)以及智能編碼、動(dòng)態(tài)接入等自研技術(shù)，全球端到端傳輸延時(shí)可控制在300ms內(nèi)，且實(shí)測(cè)抗丟包率超過(guò)80%，抗網(wǎng)絡(luò)抖動(dòng)超過(guò)1000ms，弱網(wǎng)環(huán)境下仍能提供高質(zhì)量的音視頻通話。

智能降噪、智能打斷

更流暢自然的對(duì)話體驗(yàn)

TRTC對(duì)話式AI解決方案支持48kHz采樣的高音質(zhì)，由業(yè)內(nèi)領(lǐng)先的騰訊天籟實(shí)驗(yàn)室提供3A處理算法，杜絕回聲和嘯叫。同時(shí)，方案采用源自騰訊天籟實(shí)驗(yàn)室的自研AI降噪算法，通過(guò)深度學(xué)習(xí)，智能檢測(cè)和去除混合在傳播信號(hào)中的噪聲干擾，提高語(yǔ)音的質(zhì)量和可懂度。精準(zhǔn)STT識(shí)別配合智能降噪，讓方案在嘈雜環(huán)境中也能準(zhǔn)確捕捉并轉(zhuǎn)換用戶語(yǔ)音。方案提供的語(yǔ)音轉(zhuǎn)文字（STT）能力支持中文、粵語(yǔ)、英語(yǔ)、日語(yǔ)等100多種國(guó)際語(yǔ)言和方言，并支持智能打斷以及上下文管理等能力。用戶可以在與AI的交互過(guò)程中隨時(shí)打斷對(duì)話并開(kāi)始新的話題，也能夠在一段對(duì)話后重啟之前的話題。這讓人與AI之間的對(duì)話就像真實(shí)的聊天，而非單調(diào)的一問(wèn)一答，為用戶帶來(lái)更順暢自然的對(duì)話體驗(yàn)。

高度開(kāi)放、靈活定制

適配多種場(chǎng)景需求

TRTC對(duì)話式AI解決方案高度開(kāi)放，支持企業(yè)自定義大模型（LLM）和語(yǔ)音合成（TTS），配置LLM和TTS服務(wù)的賬戶憑證即可將第三方LLM和TTS無(wú)縫集成到服務(wù)后臺(tái)。企業(yè)不僅可選擇騰訊混元、OpenAI、MiniMax等主流大模型和騰訊云、MiniMax等主流TTS平臺(tái)，還可接入自研大模型或針對(duì)特定場(chǎng)景專門(mén)優(yōu)化的特殊大模型，滿足不同場(chǎng)景的AI對(duì)話需求。并且，企業(yè)可針對(duì)自身需求，在AI對(duì)話流程中對(duì)輸入和輸出進(jìn)行二次處理，滿足自身定制化需求。例如，針對(duì)智能打斷功能，TRTC對(duì)話式AI解決方案就提供了自動(dòng)打斷、自定義打斷和不打斷等3種模式，企業(yè)可通過(guò)自定義打斷來(lái)靈活定制打斷邏輯，適配自身場(chǎng)景需求。

極簡(jiǎn)開(kāi)發(fā)流程

最快當(dāng)天就可落地

TRTC對(duì)話式AI解決方案整合并優(yōu)化了AI對(duì)話全鏈路所需的各項(xiàng)能力，開(kāi)發(fā)者能夠通過(guò)TRTC的一站式解決方案，快速將AI對(duì)話功能無(wú)縫集成到各類應(yīng)用中，無(wú)需深入處理復(fù)雜的技術(shù)細(xì)節(jié)，顯著縮短產(chǎn)品開(kāi)發(fā)周期。TRTC為開(kāi)發(fā)者提供了完整的SDK和API文檔，還為開(kāi)發(fā)者提供了豐富且開(kāi)箱即用的場(chǎng)景化定制組件，方案集成時(shí)間最快僅需一天，當(dāng)天就可落地，相比傳統(tǒng)方案節(jié)省1個(gè)月以上的開(kāi)發(fā)工作，助力企業(yè)快速實(shí)現(xiàn)產(chǎn)品智能化升級(jí)，搶占市場(chǎng)先機(jī)。

AI 騰訊云

上一篇：Shein如何獲得流量？哪個(gè)站點(diǎn)流量最大？

原文鏈接：點(diǎn)擊前往 >

文章來(lái)源：騰訊云音視頻

版權(quán)說(shuō)明：本文內(nèi)容來(lái)自于騰訊云音視頻，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán)，請(qǐng)聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章