摘要
qGPU是騰訊云推出的GPU共享技術(shù),支持在多個(gè)容器間共享GPU卡資源,提供百分比算力與MB級(jí)顯存細(xì)粒度分配和強(qiáng)隔離能力,并且搭配業(yè)界獨(dú)有的GPU在離線(xiàn)混部技術(shù),在充分保證業(yè)務(wù)安全、穩(wěn)定的前提下,將GPU利用率提升到了極致。
qGPU已服務(wù)內(nèi)外部大量客戶(hù),幫助眾多AI企業(yè)節(jié)省大量GPU成本。qGPU容器虛擬化產(chǎn)品現(xiàn)已在騰訊云TKE全量上線(xiàn)。(qGPU容器虛擬化產(chǎn)品:https://cloud.tencent.com/document/product/560/66232)
騰訊云在業(yè)界(除NVIDIA原廠外)首次實(shí)現(xiàn)了對(duì)細(xì)粒度算力強(qiáng)隔離的支持。qGPU算力可以實(shí)現(xiàn)1%的細(xì)粒度限制,并且保證嚴(yán)格按照配比分配和限制算力資源,即使在GPU資源非常緊張時(shí),各業(yè)務(wù)所分配算力資源依然保證不受影響。依賴(lài)這種能力,企業(yè)用戶(hù)可以盡量多的增加業(yè)務(wù)部署密度,充分利用GPU資源,而不用擔(dān)心會(huì)對(duì)業(yè)務(wù)帶來(lái)負(fù)面影響。
qGPU依賴(lài)TKE自研調(diào)度器和設(shè)備管理器,在TKE Kubernetes集群上支持GPU卡級(jí)別的百分比算力和MB級(jí)顯存分配和調(diào)度,在保證集群最優(yōu)資源分配和負(fù)載的前提下,讓企業(yè)AI任務(wù)可以使用更小粒度的GPU資源。
qGPU在GPU硬件級(jí)(而非CUDA API級(jí)的攔截和控制)實(shí)現(xiàn)了QoS能力,通過(guò)MB級(jí)控制GPU顯存資源分配及細(xì)粒度的強(qiáng)算力隔離,最大程度避免了因共享GPU帶來(lái)的業(yè)務(wù)性能損失。通過(guò)這種創(chuàng)新技術(shù),qGPU解決了故障、顯存和算力全維度的隔離問(wèn)題。
除此之外,騰訊云qGPU創(chuàng)新性的將在離線(xiàn)混合部署技術(shù)與GPU相結(jié)合,在業(yè)界首次實(shí)現(xiàn)了GPU在離線(xiàn)混部的方案,將GPU容器共享技術(shù)推進(jìn)到了下一個(gè)紀(jì)元。
在線(xiàn)業(yè)務(wù)通常指推理業(yè)務(wù),離線(xiàn)業(yè)務(wù)可能是推理、也可能是訓(xùn)練,于是在離線(xiàn)混部主要形式有推理+推理、推理+訓(xùn)練。如果缺乏有效技術(shù)手段,為了保證在線(xiàn)業(yè)務(wù)的QoS,需要使之獨(dú)占一張GPU卡,這會(huì)導(dǎo)致利用率很低。在具備qGPU在離線(xiàn)混部能力之后,用戶(hù)可以安全地將在線(xiàn)業(yè)務(wù)與其他業(yè)務(wù)部署在同一張GPU卡,在共享復(fù)用資源的同時(shí),可以完全保障在線(xiàn)業(yè)務(wù)健康、穩(wěn)定運(yùn)行。
可以說(shuō),騰訊云qGPU在離線(xiàn)混部是提升GPU利用率的創(chuàng)新性的突破技術(shù)。利用領(lǐng)先的細(xì)粒度算力隔離技術(shù)和獨(dú)創(chuàng)的算力高低優(yōu)調(diào)度技術(shù),在保證在線(xiàn)任務(wù)算力QoS的前提下,可以有效將GPU利用率提升至100%,極大程度減少算力浪費(fèi),將GPU資源壓榨到極致。
總結(jié)
算力異構(gòu)化已經(jīng)是今天的業(yè)界共識(shí)。其中GPU以其強(qiáng)大的算力和完善的生態(tài),在AI異構(gòu)計(jì)算中占據(jù)了統(tǒng)治地位。面對(duì)昂貴的AI算力資源,企業(yè)迫切的希望有技術(shù)手段可以幫助降低成本,增加效率。
騰訊云qGPU立足AI領(lǐng)域,依托GPU資源細(xì)粒度調(diào)度、GPU資源強(qiáng)隔離、GPU在離線(xiàn)混部等技術(shù)產(chǎn)品,通過(guò)為企業(yè)提升GPU使用效率,釋放AI算力生產(chǎn)力,最終幫助企業(yè)帶來(lái)持續(xù)和不斷的巨大商業(yè)價(jià)值。