大多數(shù)人對AI語音助手的印象,可能還停留在“Hi xxx,幫我播放歌曲”和“打開電視、關閉電視”,更進一步也就是“幫我導航最近的蘭州牛肉面館”。
簡單的問題回復及時,稍微難一點的似乎只能回答“我不明白”。TA只會對特定的提問反應,簡單的陪聊甚至前言不搭后語,反應的話術也都是預設的。
試想一下,如果有一種AI語音助手,能夠與你進行實時語音互動,甚至TA的人設也能夠根據(jù)你的需求而變,那會是多么爽的事情。比如你想練口語,TA就化身一口純正英腔的英倫大叔與你對話;你失戀了想找個人傾訴,TA一定是情緒最穩(wěn)定的那個;你也不用再做旅游攻略了,沒有TA不知道的;TA可以當你的二次元“戀人”,甚至給你提供專業(yè)咨詢?
好家伙,這AI看上去幾乎全知全能,任勞任怨,不得不說,TA人還怪好的嘞!
以上dream的AI語音助手,聲網(wǎng)已經搞定了!相較于市面上的文本互動生成式AI對話或者離線的本地數(shù)字人方案,聲網(wǎng)AIGC解決方案更專注于實時音頻對話的更優(yōu)體驗,支持體驗者與AI語音助手進行超低延遲的語音互動,并提供泛娛樂、教育、政企等細分業(yè)務場景的定制化。
聲網(wǎng)AIGC一站式解決方案
更沉浸、低延時、易開發(fā)
1.更沉浸,用戶體驗up:相比傳統(tǒng)的通過IM文字聊天與AI角色實現(xiàn)交互的方案,聲網(wǎng)提供的實時音視頻+實時消息+虛擬形象方案能夠帶來更真實自然的互動體驗,更好地表達情感和傳達用戶的個性化意圖。
2.低延時,響應延時低至1.9秒內:針對目前市面上大多數(shù)AI生成式對話響應慢的問題,聲網(wǎng)的研發(fā)團隊對AIGC場景下音視頻互動的延時做了技術優(yōu)化,從用戶發(fā)言到AI對話響應平均延時僅為1.9s,比市面上絕大部分AI互動延遲在6-7s的方案要低很多。
3.易開發(fā),3h快速上線:在場景開發(fā)層面,聲網(wǎng)提供封裝完整的SDK,包含實時音視頻、實時消息、語音轉文字(STT)/文字轉語音(TTS)、語音驅動虛擬人嘴型等多種能力,并支持API快速調用,提供開箱即用的場景化Demo,最快3h即可實現(xiàn)方案快速驗證。尤其對于想快速驗證新場景的企業(yè)與開發(fā)者而言,可以節(jié)省很多開發(fā)時間。
此外,聲網(wǎng)還可以提供以下RTE X AIGC一站式產品能力:
1.國內外多種商用大模型靈活切換
聲網(wǎng)與熱門的國內外大模型廠商進行合作,根據(jù)業(yè)務場景集成測試了多個大模型的能力,支持企業(yè)根據(jù)自身需求進行靈活切換。此外,聲網(wǎng)在開源大模型層面也有在嘗試做私有化部署,以滿足部分企業(yè)對數(shù)據(jù)安全及網(wǎng)絡的要求。
2.支持豐富的語言能力
對STT+TTS模型精細化調優(yōu),實現(xiàn)人聲分離,斷句優(yōu)化,讓整個語言體驗更加流暢。此外,聲網(wǎng)還支持AI實時變聲、定制化聲音克隆,讓聲音聽起來更具真實感。
3.場景人設定制化
聲網(wǎng)對AI角色進行了人設定制,通過Prompt的方式設置AI角色的名字、職業(yè)、性格等豐富的人設屬性并支持定制形象與聲音,例如設定不同性格人設的AI語音助手,比如口語陪練老師、虛擬戀人、客服人員、銷售專家等。
4.多輪對話記憶,交互體驗再升級
聲網(wǎng)提供的多輪對話記憶功能,可以更好的應用在AI情感陪聊、智能辦公助手等場景。對于需要AI精準回答特定行業(yè)知識、企業(yè)專業(yè)知識的客戶,聲網(wǎng)AIGC解決方案都能夠提供實時語音回答。比如政務大廳的AI問答助手可以回答公積金、社保等問題;AI英語老師可以針對不同年級提供不同難易程度的詞庫指導等。
更多好玩的應用場景等你來發(fā)現(xiàn)!