阿里云容器化GPU共享服務(wù)已開(kāi)放!性能無(wú)損失,對(duì)你的環(huán)境無(wú)侵入

來(lái)源: 量子位
作者:量子位
時(shí)間:2020-09-11
18464
隨著GPU算力越來(lái)越強(qiáng),其成本也越來(lái)越高昂。但有時(shí),執(zhí)行一個(gè)深度學(xué)習(xí)任務(wù),并不需要占用一整張GPU。就相當(dāng)于,你不僅多花了錢,還浪費(fèi)了資源。阿里云最近提出的這項(xiàng)技術(shù),幫助你解決了這一困惑。cGPU容器共享技術(shù)。

隨著GPU算力越來(lái)越強(qiáng),其成本也越來(lái)越高昂。

但有時(shí),執(zhí)行一個(gè)深度學(xué)習(xí)任務(wù),并不需要占用一整張GPU。

就相當(dāng)于,你不僅多花了錢,還浪費(fèi)了資源。

阿里云最近提出的這項(xiàng)技術(shù),幫助你解決了這一困惑。

cGPU容器共享技術(shù)。

讓用戶通過(guò)容器來(lái)調(diào)度底層GPU資源,以更細(xì)顆粒度調(diào)度使用GPU,提高GPU資源利用率,從而來(lái)實(shí)現(xiàn)降本增效。

ia_2600000002.jpg

以往的研究中,業(yè)內(nèi)也有一些GPU共享方案,比如NVIDIA MPS、NVIDIA vGPU、rCUDA等。

但也存在了一些問(wèn)題。

比如,在容器調(diào)度GPU的時(shí)候,不同線程中的容器應(yīng)用可能出現(xiàn)顯存資源爭(zhēng)搶和互相影響的現(xiàn)象,未能做到容器的完全隔離。

舉個(gè)例子,當(dāng)一個(gè)企業(yè)在兩個(gè)容器中分別運(yùn)行著GPU的推理應(yīng)用,一個(gè)已經(jīng)穩(wěn)定了,一個(gè)還在開(kāi)發(fā)階段。

如果其中一個(gè)容器中的應(yīng)用出現(xiàn)故障,由于沒(méi)有實(shí)現(xiàn)很好的隔離技術(shù),往往導(dǎo)致另一容器中的應(yīng)用也會(huì)出現(xiàn)故障。

那么阿里云的這項(xiàng)技術(shù),就可以實(shí)現(xiàn)容器的「安全隔離」,業(yè)務(wù)之間不會(huì)相互干擾。

那么,這個(gè)作為業(yè)內(nèi)首創(chuàng)的「基于內(nèi)核虛擬GPU隔離」的GPU共享容器方案,具體是如何實(shí)現(xiàn)的?

通過(guò)一個(gè)內(nèi)核驅(qū)動(dòng),為容器提供了虛擬的GPU設(shè)備,從而實(shí)現(xiàn)了顯存和算力的隔離;

通過(guò)用戶態(tài)輕量的運(yùn)行庫(kù),來(lái)對(duì)容器內(nèi)的虛擬GPU設(shè)備進(jìn)行配置。

此外,還做到了無(wú)需替換CUDA靜態(tài)庫(kù)或動(dòng)態(tài)庫(kù);無(wú)需重新編譯CUDA應(yīng)用;CUDA,cuDNN等版本隨時(shí)升級(jí)無(wú)需適配等特性。

如何使用?

目前,阿里云容器服務(wù)已經(jīng)支持cGPU容器組件。

登錄容器服務(wù)Kubernetes版控制臺(tái),簡(jiǎn)單的點(diǎn)擊幾下,為容器節(jié)點(diǎn)打標(biāo),就可以利用cGPU容器隔離,最大化的利用GPU的硬件能力了。

同時(shí),還可以通過(guò)Prometheus的監(jiān)控能力查看每個(gè)cGPU容器內(nèi)的顯存用量,在享受低成本的同時(shí),保障了應(yīng)用的可靠性。

ia_2600000003.jpg

此外,還開(kāi)放了阿里云GPU實(shí)例上使用cGPU容器的能力。cGPU依賴Docker和NVIDIA Docker,在使用cGPU前,請(qǐng)確保環(huán)境可以正常創(chuàng)建帶GPU的容器服務(wù)。

性能分析

使用方式了解了,那么就是性能問(wèn)題。

「cGPU容器方案會(huì)不會(huì)對(duì)性能有影響?有多少影響?」

以下有一組測(cè)試數(shù)據(jù),供你參考。

這是在常用的tensorflow框架下用benchmark工具分別測(cè)試了模型推理和訓(xùn)練性能。

首先是單cGPU容器VS單GPU直通性能比較,分別在cGPU容器內(nèi)部以及標(biāo)準(zhǔn)的Docker容器內(nèi)部跑測(cè)試。

為cGPU容器內(nèi)的GPU實(shí)例分配所有的顯存和算力,來(lái)顯示在不共享GPU的情況下的cGPU是否有性能損失。

ia_2600000004.jpg

這是ResNet50訓(xùn)練測(cè)試在不同精度和batch_size下的性能比較,綠色柱表示標(biāo)準(zhǔn)的容器性能,橙色柱表示cGPU容器內(nèi)的性能。

可以看到在不同的情況下,cGPU容器實(shí)例都幾乎沒(méi)有性能損失。

然后是ResNet50推理測(cè)試在不同精度和batch_size下的性能比較。

ia_2600000005.jpg

同樣的,在不同的情況下,cGPU容器實(shí)例都幾乎沒(méi)有性能損失。

還有cGPU容器VS MPS容器GPU共享性能比較。

依然采用了ResNet50的訓(xùn)練和推理benchmark作為測(cè)試用例,分別用兩個(gè)cGPU容器和兩個(gè)MPS容器共享一個(gè)GPU硬件。

ia_2600000006.jpg

這是ResNet50訓(xùn)練測(cè)試在不同batch_size下的性能比較。

綠色柱表示兩個(gè)MPS容器性能跑分的總和,橙色柱表示兩個(gè)cGPU容器跑分的總和。

可以看到,cGPU容器實(shí)例對(duì)比MPS容器幾乎沒(méi)有性能損失,在大的batch_size的情況下甚至跑分高于MPS容器。

接著,就是ResNet50推理測(cè)試在不同batch_size下的性能比較。

ia_2600000007.jpg

結(jié)果顯示,MPS容器和cGPU容器的性能差距不大,基本都在誤差范圍之內(nèi)。

你覺(jué)得這一技術(shù)如何?

感興趣的話,可戳下方鏈接去試試哦~

容器服務(wù)Kubernetes版控制臺(tái):

https://cs.console.aliyun.com/

詳細(xì)使用指南:

https://help.aliyun.com/document_detail/163994.html

立即登錄,閱讀全文
版權(quán)說(shuō)明:
本文內(nèi)容來(lái)自于量子位,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
相關(guān)文章
AI時(shí)代云安全新范式,阿里云安全能力全線升級(jí)!
AI時(shí)代云安全新范式,阿里云安全能力全線升級(jí)!
AI時(shí)代,云安全面臨著新的挑戰(zhàn),不僅要持續(xù)面對(duì)以往的傳統(tǒng)問(wèn)題,更需要全新理念落地于產(chǎn)品設(shè)計(jì)、技術(shù)演進(jìn)、架構(gòu)設(shè)計(jì),才能實(shí)現(xiàn)效果、性能、和成本的最優(yōu)解。
AI
阿里云
云服務(wù)
2024-09-272024-09-27
連續(xù)四年!阿里云領(lǐng)跑中國(guó)公有云大數(shù)據(jù)平臺(tái)
連續(xù)四年!阿里云領(lǐng)跑中國(guó)公有云大數(shù)據(jù)平臺(tái)
近日,國(guó)際數(shù)據(jù)公司(IDC)發(fā)布《中國(guó)大數(shù)據(jù)平臺(tái)市場(chǎng)份額,2023:數(shù)智融合時(shí)代的真正到來(lái)》報(bào)告——2023年中國(guó)大數(shù)據(jù)平臺(tái)公有云服務(wù)市場(chǎng)規(guī)模達(dá)72.2億元人民幣,其中阿里巴巴市場(chǎng)份額保持領(lǐng)先,占比達(dá)40.2%,連續(xù)四年排名第一。
阿里云
云服務(wù)
2024-09-182024-09-18
直降算力成本!阿里云容器計(jì)算服務(wù)ACS正式商業(yè)化
直降算力成本!阿里云容器計(jì)算服務(wù)ACS正式商業(yè)化
今日,阿里云容器計(jì)算服務(wù)ACS正式商業(yè)化,綜合算力成本最高可降55%。
阿里云
云服務(wù)
2024-08-242024-08-24
驕傲!全球一半人口看奧運(yùn),阿里云成功支撐史上最大規(guī)模電視網(wǎng)絡(luò)轉(zhuǎn)播
驕傲!全球一半人口看奧運(yùn),阿里云成功支撐史上最大規(guī)模電視網(wǎng)絡(luò)轉(zhuǎn)播
今年,云上轉(zhuǎn)播將正式超越衛(wèi)星轉(zhuǎn)播,成為奧運(yùn)賽事走向全球數(shù)十億觀眾的主要轉(zhuǎn)播方式。巴黎奧運(yùn)會(huì)11000小時(shí)的賽事直播畫(huà)面,通過(guò)阿里云向全球分發(fā)。這是1964年奧運(yùn)會(huì)開(kāi)始衛(wèi)星電視轉(zhuǎn)播以來(lái),又一次重大技術(shù)進(jìn)步。
阿里云
2024-08-152024-08-15
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開(kāi)掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
個(gè)人VIP
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家