在人工智能技術(shù)日益普及的今天,GPT-4o所展現(xiàn)出的實(shí)時(shí)語(yǔ)音對(duì)話(huà)能力再次吸引了大量關(guān)注。但AI語(yǔ)音助手其實(shí)并不新鮮,“你好,Siri”這句話(huà),大家都已經(jīng)說(shuō)了好多年。那為什么GPT-4o的發(fā)布,仍能夠再次喚起人們對(duì)AI語(yǔ)音的暢想?答案的關(guān)鍵或許在于GPT-4o比Siri們,快得多。
速度對(duì)于語(yǔ)音AI界面非常重要。我們與AI交互的流暢度,一方面取決于大模型理解生成的效率,另一方面依賴(lài)于網(wǎng)絡(luò)傳輸?shù)乃俣?。大模型就像大腦,網(wǎng)絡(luò)傳輸則像神經(jīng)系統(tǒng),傳遞大腦的信號(hào)。而傳統(tǒng)AI語(yǔ)音與GPT-4o之間的速度差異,很大一部分就來(lái)自于網(wǎng)絡(luò)傳輸延遲。傳統(tǒng)AI語(yǔ)音一般采用WebSocket方案。這一方案應(yīng)用廣泛,但方案基于TCP協(xié)議構(gòu)建,一來(lái)一回延遲就要2-3秒,網(wǎng)絡(luò)狀況不良時(shí)甚至需要3-4秒。而GPT-4o等新一代AI語(yǔ)音則采用基于WebRTC的實(shí)時(shí)語(yǔ)音方案,延遲可低至毫秒級(jí),且抗弱網(wǎng)能力更強(qiáng)。正是這一核心技術(shù)的突破,讓GPT-4o能夠在幾百毫秒的時(shí)間內(nèi)便響應(yīng)音頻輸入,速度達(dá)到人類(lèi)正常對(duì)話(huà)水準(zhǔn)。騰訊云在RTC技術(shù)上有著深厚積累,在該領(lǐng)域長(zhǎng)期處于亞太第一的領(lǐng)先地位,每日支撐上行時(shí)長(zhǎng)超30億分鐘,能夠幫助大模型有效構(gòu)建實(shí)時(shí)音視頻互動(dòng)能力。
AI+RTC,大模型卓越的自然語(yǔ)言理解及處理能力結(jié)合超低延遲的音視頻傳輸,讓人機(jī)之間實(shí)時(shí)、生動(dòng)的交流對(duì)話(huà)成為現(xiàn)實(shí)。在社交陪伴、智能客服、線(xiàn)上教育、呼叫中心等眾多場(chǎng)景中,這樣實(shí)時(shí)自然的對(duì)話(huà)交流體驗(yàn)都具備廣闊的應(yīng)用空間。對(duì)于開(kāi)發(fā)者來(lái)說(shuō),在應(yīng)用中落地AI實(shí)時(shí)語(yǔ)音能力也有多種方式,可以選擇直接調(diào)用大模型廠(chǎng)商提供的具備端到端多模態(tài)互動(dòng)能力的AI服務(wù),也可以集成音視頻云廠(chǎng)商的解決方案,例如騰訊云實(shí)時(shí)音視頻TRTC的一站式對(duì)話(huà)式AI解決方案。但目前GPT-4o的聲音API尚未開(kāi)放,即使開(kāi)放后,直接調(diào)用AI服務(wù)的話(huà),開(kāi)發(fā)者很難對(duì)輸入輸出進(jìn)行后續(xù)二次處理(對(duì)于開(kāi)發(fā)者的研發(fā)能力有較高要求,想要達(dá)到最佳的使用效果,需要自行處理各個(gè)環(huán)節(jié)延遲、降噪、打斷、AI上下文管理等細(xì)節(jié)能力)。而TRTC對(duì)話(huà)式AI解決方案將一整套的技術(shù)框架完整封裝,能夠很好地幫客戶(hù)解決接入的效率和效果問(wèn)題,幫助開(kāi)發(fā)者快速實(shí)現(xiàn)適配自己業(yè)務(wù)場(chǎng)景的AI實(shí)時(shí)對(duì)話(huà)服務(wù)。因此,對(duì)于當(dāng)下想要追逐AI實(shí)時(shí)語(yǔ)音互動(dòng)風(fēng)口的企業(yè)來(lái)說(shuō),選擇TRTC對(duì)話(huà)式AI解決方案顯然是更優(yōu)的選擇。
毫秒級(jí)實(shí)時(shí)響應(yīng),流暢自然的交互體驗(yàn)
TRTC對(duì)話(huà)式AI方案,一天落地AI實(shí)時(shí)語(yǔ)音
騰訊云實(shí)時(shí)音視頻TRTC基于騰訊長(zhǎng)期積累的低成本、低延時(shí)、高品質(zhì)的全鏈路實(shí)時(shí)音視頻技術(shù),精準(zhǔn)的語(yǔ)音轉(zhuǎn)文字(STT)能力,并整合業(yè)內(nèi)領(lǐng)先的LLM/TTS方案進(jìn)行深度優(yōu)化,在實(shí)現(xiàn)音視頻數(shù)據(jù)高效采集、處理、傳輸?shù)幕A(chǔ)上,疊加智能降噪、智能打斷、上下文管理等豐富能力,為開(kāi)發(fā)者提供端到端的、毫秒級(jí)實(shí)時(shí)響應(yīng)的、流暢自然的AI實(shí)時(shí)語(yǔ)音能力,幫助企業(yè)在最短的時(shí)間內(nèi)落地對(duì)話(huà)式AI應(yīng)用。
TRTC對(duì)話(huà)式AI解決方案一站式提供從音視頻采集、處理、傳輸?shù)皆贫薃I處理服務(wù)的全鏈路能力。客戶(hù)端應(yīng)用通過(guò)TRTC SDK捕獲音頻并發(fā)送至云端,云端接收后將其發(fā)送至AI服務(wù)進(jìn)行處理。STT(自動(dòng)語(yǔ)音識(shí)別)將音頻轉(zhuǎn)換為文本,同時(shí)進(jìn)行情感分析和擬人對(duì)話(huà)處理。處理后的文本交由LLM(大型語(yǔ)言模型)進(jìn)一步理解和生成。最后,生成的文本通過(guò)TTS(文本轉(zhuǎn)語(yǔ)音)模塊轉(zhuǎn)換成語(yǔ)音并發(fā)布回客戶(hù)端應(yīng)用。
基于RTC協(xié)議,全鏈路深度優(yōu)化
對(duì)話(huà)總延遲低至1000ms以?xún)?nèi)
TRTC對(duì)話(huà)式AI解決方案對(duì)音視頻輸入→STT→LLM→TTS→音視頻輸出的整條AI對(duì)話(huà)鏈路都進(jìn)行了深度優(yōu)化,AI對(duì)話(huà)總延遲低至1000ms,媲美人類(lèi)對(duì)話(huà)反應(yīng)速度。其中,TRTC依托騰訊云遍布全球的3200+加速節(jié)點(diǎn)以及智能編碼、動(dòng)態(tài)接入等自研技術(shù),全球端到端傳輸延時(shí)可控制在300ms內(nèi),且實(shí)測(cè)抗丟包率超過(guò)80%,抗網(wǎng)絡(luò)抖動(dòng)超過(guò)1000ms,弱網(wǎng)環(huán)境下仍能提供高質(zhì)量的音視頻通話(huà)。
智能降噪、智能打斷
更流暢自然的對(duì)話(huà)體驗(yàn)
TRTC對(duì)話(huà)式AI解決方案支持48kHz采樣的高音質(zhì),由業(yè)內(nèi)領(lǐng)先的騰訊天籟實(shí)驗(yàn)室提供3A處理算法,杜絕回聲和嘯叫。同時(shí),方案采用源自騰訊天籟實(shí)驗(yàn)室的自研AI降噪算法,通過(guò)深度學(xué)習(xí),智能檢測(cè)和去除混合在傳播信號(hào)中的噪聲干擾,提高語(yǔ)音的質(zhì)量和可懂度。精準(zhǔn)STT識(shí)別配合智能降噪,讓方案在嘈雜環(huán)境中也能準(zhǔn)確捕捉并轉(zhuǎn)換用戶(hù)語(yǔ)音。方案提供的語(yǔ)音轉(zhuǎn)文字(STT)能力支持中文、粵語(yǔ)、英語(yǔ)、日語(yǔ)等100多種國(guó)際語(yǔ)言和方言,并支持智能打斷以及上下文管理等能力。用戶(hù)可以在與AI的交互過(guò)程中隨時(shí)打斷對(duì)話(huà)并開(kāi)始新的話(huà)題,也能夠在一段對(duì)話(huà)后重啟之前的話(huà)題。這讓人與AI之間的對(duì)話(huà)就像真實(shí)的聊天,而非單調(diào)的一問(wèn)一答,為用戶(hù)帶來(lái)更順暢自然的對(duì)話(huà)體驗(yàn)。
高度開(kāi)放、靈活定制
適配多種場(chǎng)景需求
TRTC對(duì)話(huà)式AI解決方案高度開(kāi)放,支持企業(yè)自定義大模型(LLM)和語(yǔ)音合成(TTS),配置LLM和TTS服務(wù)的賬戶(hù)憑證即可將第三方LLM和TTS無(wú)縫集成到服務(wù)后臺(tái)。企業(yè)不僅可選擇騰訊混元、OpenAI、MiniMax等主流大模型和騰訊云、MiniMax等主流TTS平臺(tái),還可接入自研大模型或針對(duì)特定場(chǎng)景專(zhuān)門(mén)優(yōu)化的特殊大模型,滿(mǎn)足不同場(chǎng)景的AI對(duì)話(huà)需求。并且,企業(yè)可針對(duì)自身需求,在AI對(duì)話(huà)流程中對(duì)輸入和輸出進(jìn)行二次處理,滿(mǎn)足自身定制化需求。例如,針對(duì)智能打斷功能,TRTC對(duì)話(huà)式AI解決方案就提供了自動(dòng)打斷、自定義打斷和不打斷等3種模式,企業(yè)可通過(guò)自定義打斷來(lái)靈活定制打斷邏輯,適配自身場(chǎng)景需求。
極簡(jiǎn)開(kāi)發(fā)流程
最快當(dāng)天就可落地
TRTC對(duì)話(huà)式AI解決方案整合并優(yōu)化了AI對(duì)話(huà)全鏈路所需的各項(xiàng)能力,開(kāi)發(fā)者能夠通過(guò)TRTC的一站式解決方案,快速將AI對(duì)話(huà)功能無(wú)縫集成到各類(lèi)應(yīng)用中,無(wú)需深入處理復(fù)雜的技術(shù)細(xì)節(jié),顯著縮短產(chǎn)品開(kāi)發(fā)周期。TRTC為開(kāi)發(fā)者提供了完整的SDK和API文檔,還為開(kāi)發(fā)者提供了豐富且開(kāi)箱即用的場(chǎng)景化定制組件,方案集成時(shí)間最快僅需一天,當(dāng)天就可落地,相比傳統(tǒng)方案節(jié)省1個(gè)月以上的開(kāi)發(fā)工作,助力企業(yè)快速實(shí)現(xiàn)產(chǎn)品智能化升級(jí),搶占市場(chǎng)先機(jī)。