qGPU on TKE-騰訊云發(fā)布下一代GPU容器共享技術(shù)

來(lái)源: 騰訊云原生
作者:騰訊云團(tuán)隊(duì)
時(shí)間:2021-10-26
16858
qGPU是騰訊云推出的GPU共享技術(shù),支持在多個(gè)容器間共享GPU卡,并提供容器間顯存、算力強(qiáng)隔離的能力,從而在更小粒度的使用GPU卡的基礎(chǔ)上,保證業(yè)務(wù)安全,達(dá)到提高GPU使用率、降低客戶成本的目的。

pexels-photo-2041623.jpg

背景

qGPU是騰訊云推出的GPU共享技術(shù),支持在多個(gè)容器間共享GPU卡,并提供容器間顯存、算力強(qiáng)隔離的能力,從而在更小粒度的使用GPU卡的基礎(chǔ)上,保證業(yè)務(wù)安全,達(dá)到提高GPU使用率、降低客戶成本的目的。

qGPU on TKE依托騰訊云TKE對(duì)外開(kāi)源的Nano GPU調(diào)度框架[1],可實(shí)現(xiàn)對(duì)GPU算力與顯存的細(xì)粒度調(diào)度,并支持多容器共享GPU與多容器跨GPU資源分配。同時(shí)依賴底層強(qiáng)大的qGPU隔離技術(shù),可做到GPU顯存和算力的強(qiáng)隔離,在通過(guò)共享使用GPU的同時(shí),盡最大可能保證業(yè)務(wù)性能與資源不受干擾。

功能優(yōu)勢(shì)

qGPU方案通過(guò)對(duì)NVIDIA GPU卡上任務(wù)更有效的調(diào)度,達(dá)到給多個(gè)容器共享使用的目的,支持的功能如下:

靈活性:用戶可以自由配置GPU的顯存大小和算力占比

云原生:支持標(biāo)準(zhǔn)的Kubernetes,兼容NVIDIA Docker方案

兼容性:鏡像不修改/CUDA庫(kù)不替換/業(yè)務(wù)不重編,易部署,業(yè)務(wù)無(wú)感知

高性能:在底層對(duì)GPU設(shè)備進(jìn)行操作,高效收斂,吞吐接近0損耗

強(qiáng)隔離:支持顯存和算力的嚴(yán)格隔離,業(yè)務(wù)共享不受影響

技術(shù)架構(gòu)

qGPU on TKE使用Nano GPU調(diào)度框架,通過(guò)Kubernetes擴(kuò)展調(diào)度機(jī)制,同時(shí)支持GPU算力與顯存資源調(diào)度。并且依賴Nano GPU的容器定位機(jī)制,支持精細(xì)化GPU卡調(diào)度,同時(shí)支持多容器GPU卡共享分配與多容器GPU跨卡分配。

qGPU直接采用英偉達(dá)GPU底層硬件特性進(jìn)行調(diào)度,實(shí)現(xiàn)細(xì)粒度算力隔離,打破傳統(tǒng)上CUDA API劫持方案的只能以CUDA Kernel為粒度進(jìn)行算力隔離的限制,提供更好的QoS保證。

640.webp (3).jpg

客戶收益

1.多任務(wù)靈活共享GPU,提升利用率

2.GPU資源強(qiáng)隔離,業(yè)務(wù)共享不受影響

3.完全面向Kubernetes,業(yè)務(wù)使用零成本

未來(lái)規(guī)劃

1.支持細(xì)粒度資源監(jiān)控:qGPU on TKE將支持對(duì)Pod和容器級(jí)的GPU使用率采集,實(shí)現(xiàn)更細(xì)粒度的資源監(jiān)控和與GPU彈性能力的整合

2.支持在離線混部:qGPU on TKE將支持在線業(yè)務(wù)和離線業(yè)務(wù)的高低優(yōu)先級(jí)混部,最大限度地提升GPU利用率

3.支持qGPU算力池化:基于qGPU的GPU算力池化,實(shí)現(xiàn)CPU、內(nèi)存資源與異構(gòu)計(jì)算資源解耦

參考資料

[1]Nano GPU調(diào)度框架:【https://github.com/nano-gpu】

立即登錄,閱讀全文
版權(quán)說(shuō)明:
本文內(nèi)容來(lái)自于騰訊云原生,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
相關(guān)文章
騰訊云數(shù)據(jù)庫(kù)PostgreSQL全面支持PG 17
騰訊云數(shù)據(jù)庫(kù)PostgreSQL全面支持PG 17
即日起,騰訊云PostgreSQL全面支持PostgreSQL 17.0。所有用戶可使用大版本升級(jí)能力升級(jí)至最新的PostgreSQL 17.0進(jìn)行體驗(yàn),也可以在產(chǎn)品購(gòu)買頁(yè)直接購(gòu)買。
騰訊云
云服務(wù)
2024-12-152024-12-15
高可用這個(gè)問(wèn)題,加機(jī)器就能解決?
高可用這個(gè)問(wèn)題,加機(jī)器就能解決?
互聯(lián)網(wǎng)服務(wù)的可用性問(wèn)題是困擾企業(yè)IT人員的達(dá)摩克利斯之劍:防于未然,體現(xiàn)不出價(jià)值。已然發(fā)生,又面臨P0危機(jī)。就更別提穩(wěn)定性建設(shè)背后顯性的IT預(yù)算問(wèn)題與隱性的人員成本問(wèn)題。
騰訊云
云服務(wù)
2024-11-252024-11-25
TDSQL TDStore引擎版替換HBase:在歷史庫(kù)場(chǎng)景中的成本與性能優(yōu)勢(shì)
TDSQL TDStore引擎版替換HBase:在歷史庫(kù)場(chǎng)景中的成本與性能優(yōu)勢(shì)
HBase憑借其高可用性、高擴(kuò)展性和強(qiáng)一致性,以及在廉價(jià)PC服務(wù)器上的低部署成本,廣泛應(yīng)用于大規(guī)模數(shù)據(jù)分析。
騰訊云
云服務(wù)
2024-11-042024-11-04
復(fù)雜查詢性能弱,只讀分析引擎來(lái)幫忙
復(fù)雜查詢性能弱,只讀分析引擎來(lái)幫忙
隨著當(dāng)今業(yè)務(wù)的高速發(fā)展,復(fù)雜多表關(guān)聯(lián)的場(chǎng)景越來(lái)越普遍。但基于行式存儲(chǔ)的數(shù)據(jù)庫(kù)在進(jìn)行復(fù)雜查詢時(shí)性能相對(duì)較弱。
騰訊云
云服務(wù)
2024-11-022024-11-02
掃碼登錄
打開(kāi)掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
個(gè)人VIP
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家