在AI推理業(yè)務(wù)中,面對業(yè)務(wù)請求量的持續(xù)攀升,快速部署和擴容的能力至關(guān)重要。優(yōu)刻得容器服務(wù)(UK8S)現(xiàn)推出容器鏡像加速功能,旨在提升AI業(yè)務(wù)應(yīng)用過程中的部署速度和運行效率,確保各類項目能夠快速、穩(wěn)定地交付和開展。
容器鏡像是容器化應(yīng)用的基礎(chǔ),而快速下載和啟動容器鏡像是提升應(yīng)用部署速度的關(guān)鍵。優(yōu)刻得UK8S的容器鏡像加速功能,通過優(yōu)化鏡像下載和緩存機制,顯著縮短了容器啟動時間,使得AI應(yīng)用能夠在極短的時間內(nèi)上線運行。
核心優(yōu)勢
1.更快的鏡像拉取速度
UK8S集群利用UFS+FUSE文件系統(tǒng)來實現(xiàn)容器鏡像按需加載(Lazy Pull),大幅提高了鏡像拉取速度;尤其在處理大型AI模型和復(fù)雜應(yīng)用時,速率優(yōu)化尤為明顯
2.IO損耗小
通過采用延遲加載和熱緩存技術(shù),有效減少了因FUSE機制帶來的IO損耗,這些優(yōu)化措施確保了系統(tǒng)在處理數(shù)據(jù)時的效率和速度,大大提升了整體性能
通過案例看應(yīng)用
背景
某AI客戶需要在短時間內(nèi)通過CA彈性伸縮200個節(jié)點進行AI訓(xùn)練,且使用的容器鏡像總大小達到了20GB,傳統(tǒng)的鏡像加速方案會因節(jié)點上的部分性能限制,無法滿足客戶的需求。
挑戰(zhàn)
1.大規(guī)模擴容需求:任務(wù)需要在短時間內(nèi)大規(guī)模擴展至200個節(jié)點,確保訓(xùn)練任務(wù)能夠快速啟動和運行
2.鏡像加載速度慢:傳統(tǒng)的鏡像加速方案無法滿足高性能存儲需求,導(dǎo)致鏡像加載時間較長,影響整體訓(xùn)練效率
解決方案
1.采用Lazy Pull技術(shù):UK8S集群引入了延遲加載(Lazy Pull)技術(shù),通過在容器啟動時按需加載鏡像數(shù)據(jù),有效削減了初始加載時間
2.熱緩存優(yōu)化:通過熱緩存技術(shù),能夠智能識別并預(yù)先緩存高頻訪問的鏡像數(shù)據(jù),保障了容器的IO效率
效果
1.加載速度提升3倍起:通過Lazy Pull技術(shù),將容器加載速度從傳統(tǒng)的分鐘級提升至20秒左右,極大地加速了AI訓(xùn)練任務(wù)的啟動速度
2.彈性伸縮:借助UK8S的彈性伸縮能力,能夠迅速響應(yīng)AI客戶的擴容需求,在極短時間內(nèi)將資源高效擴容至200個節(jié)點,快速拉起大規(guī)模訓(xùn)練任務(wù)
3.高效部署:容器鏡像加速功能,縮短了鏡像下載時間,還加速了容器的啟動過程,使得推理業(yè)務(wù)的部署流程更加順暢高效,為生產(chǎn)取得了寶貴的時間
使用指南
要測試UK8S集群的容器鏡像加速功能,您可以預(yù)先準備下列資源,并根據(jù)下述準備列表咨詢技術(shù)支持即可。
1.登錄到優(yōu)刻得控制臺:
https://console.ucloud.cn/uhost/uhost/gpu_create
2.創(chuàng)建一個UK8S集群:根據(jù)您的測試業(yè)務(wù)創(chuàng)建對應(yīng)規(guī)格即可
3.創(chuàng)建一個UFS:準備一個大于目標加速鏡像、且與集群同一個VPC和子網(wǎng)的UFS,并設(shè)置好對應(yīng)的掛載點
4.提供加速鏡像及加速鏡像的uhub用戶名和密碼
優(yōu)刻得容器服務(wù)UK8S推出的容器鏡像加速功能,為AI應(yīng)用部署和加速提供了強有力的支撐。無論是模型推理,還是模型微調(diào)場景,都能夠通過容器鏡像加速進行技術(shù)優(yōu)化,幫助企業(yè)和開發(fā)者更快地部署和運行智能化應(yīng)用。