Amazon SageMaker添加模型推論結果流媒體功能，可提升AI應用響應性

來源：十輪網

作者：十輪網

時間：2023-09-07

AWS在機器學習服務Amazon SageMaker添加回應流媒體（Response Streaming）新功能，用戶現在可以將模型推論結果流媒體傳輸至客戶端，在回應生成時立即開始流媒體傳輸回應，不必等待回應完全生成，而這將可加速生成式人工智能應用程序收到第一個字節(jié)的時間。

elevating_the_generative_ai_experience_introducing_streaming_support.jpg

過去用戶發(fā)送查詢，需要等待回應完全生成完畢，才能夠收到答案，是以批次作業(yè)的方式進行，但是這可能會需要數秒或是更長的時間，官方提到，這樣的形式降低了應用程序的性能。通過應用回應流媒體功能，應用程序可以更快地產生回應，在用戶看到初始回應時，人工智能可以繼續(xù)在后臺完成處理其解答，聊天機器可以更迅速發(fā)送生成結果，如此便能夠創(chuàng)建無縫地對話流程，讓最終用戶獲得流暢的對話體驗。

要從SageMaker截取流媒體回應，用戶需要使用新的InvokeEndpointWithResponseStream API，應用程序將可以更快地收到第一個回應字節(jié)，用戶會明顯有感覺延遲降低，AWS提到，在人工智能應用程序中，立即處理的價值比獲得整個完整有效負載更重要，而且更能創(chuàng)建有黏著度的對話，借由實現互動的連續(xù)性創(chuàng)建更好的用戶體驗。

包括文本和圖形形式的結果，都可以運用流媒體式回應，也就是說在SageMaker端點所托管的Falcon、Llama 2和Stable Diffusion等模型，都能夠將模型推論結果以流媒體的形式回傳。官方深入解釋，SageMaker即時端點回應流媒體是通過HTTP 1.1區(qū)塊編碼實例而成，也就是說數據會被分成多個區(qū)塊（Chunked）傳輸，而非一次性發(fā)送整個數據，服務器可以在生成內容的同時立刻開始傳輸，不必等待所有內容都準備好。

要使用這項新功能，用戶需要擁有AWS IAM（Identity and Access Management）角色賬戶，并具備管理部分解決方案資源的權限，除了網頁機器學習開發(fā)環(huán)境Amazon SageMaker Studio，用戶也需要請求相對應SageMaker托管執(zhí)行實例的服務配額。

AWS AI

上一篇：把電池賣到歐洲，沒那么簡單了

原文鏈接：點擊前往 >

版權說明：本文內容來自于十輪網，本站不擁有所有權，不承擔相關法律責任。文章內容系作者個人觀點，不代表快出海對觀點贊同或支持。如有侵權，請聯系管理員（zzx@kchuhai.com）刪除！

相關文章