在剛剛結(jié)束的全球計算機系統(tǒng)領(lǐng)域頂級會議SOSP 2021上,華為云發(fā)表的關(guān)于瑤光調(diào)度算法的論文,創(chuàng)造性地提出了一種普適的負載生成模型以及生成方法,被大會收錄。同時,這也是本次大會唯一收錄的中國云計算公司技術(shù)論文。
Symposium on Operating Systems Principles (SOSP) 始辦于1967年,被譽為計算機系統(tǒng)領(lǐng)域的奧斯卡,是由ACM組織的計算機科學領(lǐng)域頂級會議。包含開啟互聯(lián)網(wǎng)時代的Arpanet,分布式系統(tǒng)設(shè)計公理的CAP原則,公有云標志性論文Amazon Dynamo等都是在SOSP會議上發(fā)表。作為系統(tǒng)領(lǐng)域的最高學術(shù)會議,SOSP對論文要求極高,本屆SOSP論文接受率僅為15.5%。
華為云本次提交的論文《Generating Complex, Realistic Cloud Workloads using Recurrent Neural Networks》由華為云瑤光調(diào)度算法團隊主導(dǎo),主要提出了使用 RNN 模型來生成復(fù)雜的 Cloud Workloads,用于輔助優(yōu)化云資源的調(diào)度,為解決云上超大規(guī)模調(diào)度提供一套突破性的理論模型。
基礎(chǔ)科學是云計算的重要理論基礎(chǔ),如果云廠商能夠精準預(yù)測未來一段時間的Workload,就可以對資產(chǎn)進行更為高效地規(guī)劃,為客戶提供更優(yōu)的使用體驗。傳統(tǒng)建模方式,僅基于歷史數(shù)據(jù)來進行預(yù)測和調(diào)優(yōu),通常存在如數(shù)據(jù)量規(guī)模小、靈活性差、失效快等問題,同時基于各種獨立性假設(shè),使得建模結(jié)果與真實數(shù)據(jù)的擬合度較低,難以生成真實的、質(zhì)量高的Workload,導(dǎo)致最終難于做出精準決策。
論文中創(chuàng)造性地提出一個全新的算法,以歷史數(shù)據(jù)為輸入,經(jīng)過Batch Arrival、Resource、Lifetime三個數(shù)學模型,產(chǎn)生一段包含每個VM創(chuàng)建時間、結(jié)束時間以及對資源請求的Trace,最終生成復(fù)雜且真實的Cloud Workload。
下圖展示了對一段時間內(nèi) CPU 資源請求量的 Workload,可以看到使用LSTM模型相比傳統(tǒng)模型可以更好地擬合真實的數(shù)據(jù),從而輔助云廠商進行更精確的資源配置。
華為云瑤光分布式云操作系統(tǒng),是面向云、5G、AI時代打造的智慧云腦,依托全域調(diào)度、動態(tài)協(xié)商與治理、多樣性算力智能匹配等能力,讓全域資源供給極優(yōu),多樣性算力使用極簡。其算法打破70項由全球優(yōu)化算法領(lǐng)域權(quán)威機構(gòu)SINTEF維護的PDPTW榜單紀錄,成為中國研究機構(gòu)中最多紀錄的保持者,并獲得GECCO 2020國際會議OCP與USCP運籌優(yōu)化算法賽道的雙榜首。本次的研究成果,也是華為云瑤光在分布式云資源調(diào)度、智能決策與優(yōu)化等技術(shù)領(lǐng)域的再一次突破,為華為云平穩(wěn)高效運行提供技術(shù)保障。
未來,華為云仍將持續(xù)發(fā)揮基礎(chǔ)科學領(lǐng)域技術(shù)創(chuàng)新能力,探索分布式云形態(tài)下全域調(diào)度、軟硬協(xié)同等技術(shù),為企業(yè)提供極優(yōu)極簡的云上體驗。