新記錄誕生,騰訊云2分31秒打破ImageNet訓(xùn)練記錄

來(lái)源: 百家號(hào)
作者:時(shí)代洞察
時(shí)間:2020-08-24
17175
騰訊云對(duì)外宣布成功創(chuàng)造了128卡訓(xùn)練ImageNet業(yè)界新記錄,以2分31秒的成績(jī)一舉刷新了這個(gè)領(lǐng)域的世界記錄。

8月21日,騰訊云正式對(duì)外宣布成功創(chuàng)造了128卡訓(xùn)練ImageNet業(yè)界新記錄,以2分31秒的成績(jī)一舉刷新了這個(gè)領(lǐng)域的世界記錄。若改變跨機(jī)網(wǎng)絡(luò)帶寬,該成績(jī)還可以進(jìn)一步提升至2分2秒,將這一記錄提升到一個(gè)全新的高度。

這次記錄是基于公有云25Gbps的VPC網(wǎng)絡(luò)環(huán)境,使用128塊V100 GPU,借助最新研制的Light大規(guī)模分布式多機(jī)多卡訓(xùn)練框架創(chuàng)造的,最終成績(jī)定格在2分31秒訓(xùn)練ImageNet 28個(gè)epoch,TOP5精度達(dá)到93%,之前的業(yè)界最好成績(jī)是2分38秒。據(jù)了解,這項(xiàng)記錄的背后團(tuán)隊(duì)來(lái)自騰訊云智能鈦團(tuán)隊(duì)、騰訊機(jī)智團(tuán)隊(duì)、騰訊優(yōu)圖實(shí)驗(yàn)室以及香港浸會(huì)大學(xué)計(jì)算機(jī)科學(xué)系褚曉文教授團(tuán)隊(duì)。

作為人工智能最重要的基礎(chǔ)技術(shù)之一,深度學(xué)習(xí)的應(yīng)用已經(jīng)快速延伸到智慧城市、智能制造等眾多場(chǎng)景。然而與需求同步衍生的是在深度學(xué)習(xí)訓(xùn)練中產(chǎn)生的諸多問(wèn)題,比如數(shù)據(jù)量龐大且訓(xùn)練耗時(shí)長(zhǎng)、計(jì)算模型/結(jié)構(gòu)愈漸復(fù)雜、參數(shù)量大、超參數(shù)范圍廣泛等。這些問(wèn)題已經(jīng)阻礙了深度學(xué)習(xí)開(kāi)發(fā)應(yīng)用的進(jìn)度。如何做高性能AI訓(xùn)練和計(jì)算,不僅關(guān)乎到AI生產(chǎn)研發(fā)效率,還對(duì)AI產(chǎn)品的迭代效率和成功上線產(chǎn)生重要影響,而高效訓(xùn)練的一個(gè)非常重要的基準(zhǔn)是如何在更短時(shí)間內(nèi)對(duì)大型可視化數(shù)據(jù)庫(kù)ImageNet做一次訓(xùn)練。

正是在這樣的背景下,騰訊云聯(lián)合多個(gè)團(tuán)隊(duì)研發(fā)出了Light大規(guī)模分布式多機(jī)多卡訓(xùn)練框架,從深度學(xué)習(xí)訓(xùn)練的速度、多機(jī)多卡的擴(kuò)展性、batch收斂等方面,為業(yè)界提供了一套全新的訓(xùn)練解決方案。

在單機(jī)訓(xùn)練速度方面,騰訊云首先利用GPU云服務(wù)器的內(nèi)存和SSD云盤(pán),在訓(xùn)練過(guò)程中為訓(xùn)練程序提供數(shù)據(jù)預(yù)取和緩存,加速了訪問(wèn)遠(yuǎn)程存儲(chǔ)數(shù)據(jù)。而針對(duì)大量線程相互搶占導(dǎo)致CPU運(yùn)行效率低下問(wèn)題,騰訊云通過(guò)自動(dòng)調(diào)整最優(yōu)數(shù)據(jù)預(yù)處理線程數(shù)來(lái)降低CPU的切換負(fù)擔(dān),讓數(shù)據(jù)預(yù)處理和GPU計(jì)算并行,提升了整體訓(xùn)練的速度。

在多機(jī)擴(kuò)展訓(xùn)練方面,以往的TCP環(huán)境下,跨機(jī)通信的數(shù)據(jù)需要從顯存拷到主存,再通過(guò)CPU去收發(fā)數(shù)據(jù),計(jì)算時(shí)間短加上通信時(shí)間長(zhǎng),使多機(jī)多卡的擴(kuò)展性受到了很大挑戰(zhàn)。騰訊云則憑借Light高效擴(kuò)展了多機(jī)訓(xùn)練,通過(guò)自適應(yīng)梯度融合技術(shù)、層級(jí)通信+多流手段、層級(jí)topk壓縮通信算法等,充分利用通信時(shí)的網(wǎng)絡(luò)帶寬,優(yōu)化了跨機(jī)通信的時(shí)間。

此外,為充分利用大規(guī)模集群算力,目前業(yè)界主要通過(guò)不斷提升訓(xùn)練的batch size來(lái)提升訓(xùn)練速度,但是batch size的增大會(huì)對(duì)精度帶來(lái)影響和損失。為解決這一問(wèn)題,騰訊云通過(guò)大batch調(diào)參策略、梯度壓縮精度補(bǔ)償、AutoML調(diào)參等方法,有效實(shí)現(xiàn)了在增大batch size的同時(shí),最小化其對(duì)精度的影響。

f31fbe096b63f6243c5e18d035cbc1ff1b4ca37c.jpg

通過(guò)Light大規(guī)模分布式多機(jī)多卡訓(xùn)練框架及平臺(tái)等一系列完整的解決方案,ImageNet的訓(xùn)練結(jié)果取得了新突破。并且在取得高效訓(xùn)練的同時(shí),也將其能力集成到騰訊云智能鈦機(jī)器學(xué)習(xí)平臺(tái),并廣泛應(yīng)用在騰訊內(nèi)外部的業(yè)務(wù)。

接下來(lái),聯(lián)合項(xiàng)目團(tuán)隊(duì)還將進(jìn)一步提升機(jī)器學(xué)習(xí)平臺(tái)易用性,訓(xùn)練和推理性能,構(gòu)建穩(wěn)定、易用、好用、高效的平臺(tái)和服務(wù),為算法工程師提供有力的機(jī)器學(xué)習(xí)工具,助力各行各業(yè)用戶業(yè)務(wù)的發(fā)展。

立即登錄,閱讀全文
版權(quán)說(shuō)明:
本文內(nèi)容來(lái)自于百家號(hào),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
相關(guān)文章
騰訊云數(shù)據(jù)庫(kù)PostgreSQL全面支持PG 17
騰訊云數(shù)據(jù)庫(kù)PostgreSQL全面支持PG 17
即日起,騰訊云PostgreSQL全面支持PostgreSQL 17.0。所有用戶可使用大版本升級(jí)能力升級(jí)至最新的PostgreSQL 17.0進(jìn)行體驗(yàn),也可以在產(chǎn)品購(gòu)買(mǎi)頁(yè)直接購(gòu)買(mǎi)。
騰訊云
云服務(wù)
2024-12-152024-12-15
高可用這個(gè)問(wèn)題,加機(jī)器就能解決?
高可用這個(gè)問(wèn)題,加機(jī)器就能解決?
互聯(lián)網(wǎng)服務(wù)的可用性問(wèn)題是困擾企業(yè)IT人員的達(dá)摩克利斯之劍:防于未然,體現(xiàn)不出價(jià)值。已然發(fā)生,又面臨P0危機(jī)。就更別提穩(wěn)定性建設(shè)背后顯性的IT預(yù)算問(wèn)題與隱性的人員成本問(wèn)題。
騰訊云
云服務(wù)
2024-11-252024-11-25
TDSQL TDStore引擎版替換HBase:在歷史庫(kù)場(chǎng)景中的成本與性能優(yōu)勢(shì)
TDSQL TDStore引擎版替換HBase:在歷史庫(kù)場(chǎng)景中的成本與性能優(yōu)勢(shì)
HBase憑借其高可用性、高擴(kuò)展性和強(qiáng)一致性,以及在廉價(jià)PC服務(wù)器上的低部署成本,廣泛應(yīng)用于大規(guī)模數(shù)據(jù)分析。
騰訊云
云服務(wù)
2024-11-042024-11-04
復(fù)雜查詢性能弱,只讀分析引擎來(lái)幫忙
復(fù)雜查詢性能弱,只讀分析引擎來(lái)幫忙
隨著當(dāng)今業(yè)務(wù)的高速發(fā)展,復(fù)雜多表關(guān)聯(lián)的場(chǎng)景越來(lái)越普遍。但基于行式存儲(chǔ)的數(shù)據(jù)庫(kù)在進(jìn)行復(fù)雜查詢時(shí)性能相對(duì)較弱。
騰訊云
云服務(wù)
2024-11-022024-11-02
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開(kāi)掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
個(gè)人VIP
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家