從2018年投入第一代軟硬件全自研交換機(jī)研發(fā)至今,阿里巴巴的自研網(wǎng)絡(luò)硬件已覆蓋并規(guī)模部署到阿里云的整個(gè)網(wǎng)絡(luò),成為了整個(gè)網(wǎng)絡(luò)的基礎(chǔ)。
01
一切為了規(guī)模
規(guī)模,是互聯(lián)網(wǎng)數(shù)據(jù)中心和傳統(tǒng)數(shù)據(jù)中心的最大區(qū)別,因此,通常會(huì)把這類互聯(lián)網(wǎng)、云計(jì)算數(shù)據(jù)中心稱作超大規(guī)模數(shù)據(jù)中心——hyperscale data center。
阿里云在全球28個(gè)地域的86個(gè)可用區(qū)里運(yùn)營著上百座數(shù)據(jù)中心,每個(gè)數(shù)據(jù)中心能夠容納幾萬臺(tái)到十幾萬臺(tái)服務(wù)器。龐大的數(shù)量催生了“三大規(guī)?!碧魬?zhàn):超大規(guī)模接入、超大規(guī)模運(yùn)營、超大規(guī)模演進(jìn)。
超大規(guī)模接入
白盒交換機(jī)勝任超大規(guī)模接入。
第一,Scale Out理念和CLOS架構(gòu)為硬件白盒化奠定了架構(gòu)基礎(chǔ)。
Scale Out理念利用橫向擴(kuò)展來增加網(wǎng)絡(luò)的接入能力,而不是一味增加單臺(tái)設(shè)備的端口數(shù)量。CLOS架構(gòu)則很好的貫徹了Scale Out的理念。這種網(wǎng)絡(luò)架構(gòu)能夠用小規(guī)模、低成本的設(shè)備,構(gòu)建大規(guī)模的網(wǎng)絡(luò),成為超大規(guī)模數(shù)據(jù)中心的事實(shí)架構(gòu)標(biāo)準(zhǔn)。
圖 | Scale up vs Scale Out
這樣的背景下,盒式交換機(jī)終于有了用武之地,盒式交換機(jī)的設(shè)計(jì)復(fù)雜度相比傳統(tǒng)的框式交換機(jī)要低,這就為硬件白盒化奠定了架構(gòu)基礎(chǔ)。
第二,SDN讓封閉系統(tǒng)變成開放系統(tǒng)。
傳統(tǒng)的數(shù)據(jù)中心交換機(jī)多為復(fù)雜的框式交換機(jī),并且數(shù)據(jù)面、控制、管理完全由設(shè)備廠家控制,是一個(gè)封閉的系統(tǒng)。SDN的核心思想之一是開放和解耦,通過解耦把單個(gè)廠商封閉系統(tǒng)變成一個(gè)開放的系統(tǒng)。最具代表性的成果是商業(yè)化交換機(jī)芯片逐漸占據(jù)數(shù)據(jù)中心網(wǎng)絡(luò)市場的主導(dǎo)地位,開源組織和開源軟件也如雨后春筍般出現(xiàn)。白盒交換機(jī)有了架構(gòu)的基礎(chǔ),也有了芯片基礎(chǔ)。
最后,不得不提的是SONiC這個(gè)交換機(jī)開放操作系統(tǒng)。由微軟首先倡導(dǎo),阿里巴巴主力推動(dòng)的開源SONiC已經(jīng)成為交換機(jī)開源操作系統(tǒng)的事實(shí)標(biāo)準(zhǔn)。
至此,白盒交換機(jī)儼然成為了大規(guī)模數(shù)據(jù)中心的天選之子。
超大規(guī)模運(yùn)營
白盒交換機(jī)解決超大規(guī)模網(wǎng)絡(luò)的運(yùn)營問題。
傳統(tǒng)網(wǎng)絡(luò)的運(yùn)營,類似于人工駕駛,每個(gè)運(yùn)營人員就像駕駛員,需要操控好自己的車子,以應(yīng)對突發(fā)路況,而當(dāng)我們的交通網(wǎng)越來越大時(shí),單純依靠駕駛員自身的能力將無法達(dá)到最佳效率。
超大規(guī)模網(wǎng)絡(luò)的運(yùn)營,類似于大交通網(wǎng)下的自動(dòng)駕駛,通過為全網(wǎng)交換機(jī)賦予豐富的監(jiān)控能力,再通過對大量數(shù)據(jù)的智能分析和集中處理能力,能夠大幅提升超大規(guī)模網(wǎng)絡(luò)的運(yùn)營效率。
超大規(guī)模演進(jìn)
白盒化幫助實(shí)現(xiàn)超大規(guī)模架構(gòu)的快速部署和迭代,從更高的維度實(shí)現(xiàn)性能和成本的最優(yōu)解。
在依賴商業(yè)交換機(jī)的時(shí)代,整個(gè)網(wǎng)絡(luò)的演進(jìn)受限于廠家的方案,用戶需求真正體現(xiàn)到設(shè)備廠家會(huì)存在遲滯;除此之外,在成本上,傳統(tǒng)網(wǎng)絡(luò)成本的降低,依賴于三方競價(jià)等手段來降低單設(shè)備的成本,而白盒賦予其在更高維度上的成本優(yōu)化方式。
快速變化的業(yè)務(wù)驅(qū)動(dòng)下,用戶可第一時(shí)間享受到新芯片、新架構(gòu)的紅利,且能夠形成長期穩(wěn)定的架構(gòu)演進(jìn)方案,從而實(shí)現(xiàn)整體網(wǎng)絡(luò)成本的降低。
圖 | 網(wǎng)絡(luò)成本
02
自研之路
起步與選擇
阿里巴巴基于全自研交換機(jī)的網(wǎng)絡(luò)架構(gòu)始于2018年。彼時(shí)100G模塊已成為成熟的方案,商業(yè)12.8T交換芯片也剛剛出世,25G網(wǎng)卡的服務(wù)器也開始規(guī)模上線。
在這樣的背景下,有個(gè)最為恰當(dāng)?shù)倪x擇:利用12.8T單芯片打造128個(gè)100G端口的交換機(jī),從而實(shí)現(xiàn)網(wǎng)絡(luò)性能、成本雙贏。
這里有必要做一些背景介紹。
在三層CLOS架構(gòu)下,整個(gè)網(wǎng)絡(luò)能夠接入網(wǎng)卡和服務(wù)器的數(shù)量,也就是我們所說的集群規(guī)模,取決于單臺(tái)交換機(jī)的端口數(shù)量。
圖 | 集群規(guī)模-端口數(shù)量
而交換機(jī)的單端口帶寬則反映了業(yè)務(wù)對于帶寬的需求。
以12.8T交換芯片為例,基于單芯片的交換機(jī)可以設(shè)計(jì)成128x100G端口,或者32個(gè)400G端口。對于后者來說,帶寬提升了但同時(shí)犧牲了接入的規(guī)模。
而交換機(jī)的端口形態(tài)也決定了使用哪種光模塊。
因此,業(yè)務(wù)的需求,最終反映到了網(wǎng)絡(luò)的架構(gòu)和交換機(jī)端口形態(tài)的選擇上。
圖 | 網(wǎng)絡(luò)架構(gòu)的平衡
北美的四大互聯(lián)網(wǎng)中也有出于對高帶寬的需求,同時(shí)為了兼顧集群規(guī)模,而采用多個(gè)盒式交換機(jī)互連來形成一個(gè)邏輯上的大帶寬多端口的Leaf/Spine交換機(jī),并且一直延續(xù)這樣的架構(gòu)。其帶來的影響是相比單芯片的盒式交換機(jī)組網(wǎng)方案,互連復(fù)雜度增加,同時(shí)互連跳數(shù)增加導(dǎo)致時(shí)延增加。
基于當(dāng)時(shí)自身的需求和產(chǎn)業(yè)鏈狀況,阿里巴巴選擇了一條最為適合自己、最為簡潔的單芯片交換機(jī)方案。
200G還是400G
2019年底,在第一代架構(gòu)規(guī)模上線之時(shí),阿里云開始規(guī)劃下一代的網(wǎng)絡(luò)方案。此時(shí)25.6T交換芯片呼之欲出。走400G網(wǎng)絡(luò)還是走200G網(wǎng)絡(luò)成了爭論的焦點(diǎn)。
當(dāng)時(shí),一些北美互聯(lián)網(wǎng)公司規(guī)劃了800G/400G的互連方案,從技術(shù)上看,在光互連技術(shù)上確實(shí)領(lǐng)先業(yè)界。但是400G在可預(yù)見的幾年內(nèi)還不能達(dá)到較好的性價(jià)比;另一方面,基于25.6T芯片做400G端口的交換機(jī),端口數(shù)量相比200G減少一半,整體的集群規(guī)模會(huì)降至200G網(wǎng)絡(luò)的1/4,這是更為致命的一個(gè)問題。
網(wǎng)絡(luò)架構(gòu)基于單芯片交換機(jī)這一方案不會(huì)輕易動(dòng)搖。
權(quán)衡利弊之后,阿里云選擇了200G路線:既能保證架構(gòu)和帶寬平滑演進(jìn),又能保持集群規(guī)模,選擇這一路線帶來的挑戰(zhàn)是需要驅(qū)動(dòng)產(chǎn)業(yè)鏈去為200G的模塊做好準(zhǔn)備。從這一代開始,阿里云開始了自己的集群架構(gòu)和交換機(jī)的演進(jìn)之路。
未來已來
商業(yè)芯片還在按照既定的2年一代的節(jié)奏進(jìn)行升級,51.2T芯片已躍出水面,真正的400G時(shí)代即將到來。
對業(yè)務(wù)規(guī)劃的深入理解、對產(chǎn)業(yè)的清晰認(rèn)知和影響、對架構(gòu)演進(jìn)的合理規(guī)劃,讓阿里云比四年前更有自信。
圖 | 磐久數(shù)據(jù)中心自研交換機(jī)
全鏈路自動(dòng)化
過去很長的時(shí)間里,網(wǎng)絡(luò)設(shè)備的管理和運(yùn)維都是以人手動(dòng)為主,網(wǎng)絡(luò)配置采用命令行,網(wǎng)絡(luò)故障發(fā)現(xiàn)需要靠人肉通過Ping、Traceroute等基本工具來進(jìn)行。阿里的每個(gè)大型數(shù)據(jù)中心都有幾千臺(tái)的交換機(jī),依靠人來手工運(yùn)維是不現(xiàn)實(shí)的。
阿里云的數(shù)據(jù)中心網(wǎng)絡(luò)利用軟硬件自主可控,實(shí)現(xiàn)了運(yùn)營的自動(dòng)化和智能化。自動(dòng)化運(yùn)營包括很多方面,從最開始的自動(dòng)化架構(gòu)驗(yàn)證,到自動(dòng)化的規(guī)模部署,再到自動(dòng)化的新功能發(fā)布、軟件版本升級,以及故障的自動(dòng)化發(fā)現(xiàn)、隔離和恢復(fù)等。
與廠商的封閉設(shè)備不同,阿里通過軟硬件自研實(shí)現(xiàn)自主可控,從頭打造了適合大規(guī)模運(yùn)營的部署能力、監(jiān)控能力、排障能力、升級能力等等。大規(guī)模自動(dòng)化運(yùn)營水到渠成,支撐規(guī)模運(yùn)營的思想貫穿著交換機(jī)的整個(gè)生命周期。
圖 | 全鏈路自動(dòng)化
第二大腦
從第一代自研交換機(jī)開始,阿里就將BMC引入到了交換機(jī)中,作為交換機(jī)的第二大腦。
傳統(tǒng)的交換機(jī)內(nèi),CPU負(fù)責(zé)了所有的控制和管理任務(wù),一旦CPU出現(xiàn)問題,設(shè)備就會(huì)失聯(lián),也很難對故障進(jìn)行追溯,故障的恢復(fù)也需要依賴人工干預(yù)。BMC的引入,將設(shè)備的管理任務(wù)搬到了BMC,CPU則專注于交換芯片的控制:在CPU掛死時(shí),BMC能主動(dòng)獲取CPU的故障信息,同時(shí)結(jié)合設(shè)備上的實(shí)時(shí)傳感器監(jiān)控?cái)?shù)據(jù)對故障過程和原因進(jìn)行排查、分析;同時(shí),BMC還能對CPU和設(shè)備進(jìn)行恢復(fù),避免了人工干預(yù)。
圖 | AliBMC
第二生命線
除了主架構(gòu)交換機(jī),阿里還將帶外網(wǎng)絡(luò)進(jìn)行了全面的自研化改造。
帶外交換機(jī)和串口服務(wù)器是網(wǎng)絡(luò)的第二道生命線,當(dāng)帶內(nèi)出現(xiàn)問題時(shí),往往要依賴于帶外通道對故障進(jìn)行排查和恢復(fù)。長期以來帶外并未受到足夠重視,供應(yīng)、成本、穩(wěn)定性這些都是老大難的問題。
同時(shí),主架構(gòu)交換機(jī)自研的理念也帶到了帶外,除了解決供應(yīng)、成本、穩(wěn)定性這三大問題,也將自動(dòng)化能力和豐富的運(yùn)維特性帶給了帶外,極大提高了整個(gè)網(wǎng)絡(luò)運(yùn)營的效率。
在規(guī)模部署和運(yùn)營上,另一個(gè)不得不提的是“自研交換機(jī)+DAC的整機(jī)柜一體化方案”,該方案極大提升了交換機(jī)和服務(wù)器互連的穩(wěn)定性,提升了建設(shè)和運(yùn)營效率,關(guān)于這個(gè)主題,我們接下來會(huì)有單獨(dú)的一篇文章去詳細(xì)介紹。
03
生態(tài)的力量
傳統(tǒng)設(shè)備廠商設(shè)計(jì)一款交換機(jī),需要有非常大的投入和很長的周期。對云計(jì)算廠商來說,效率是非常重要的。
解法是什么?那就是——生態(tài)的力量。
S3IP-網(wǎng)絡(luò)標(biāo)準(zhǔn)化新引擎
打造生態(tài),推動(dòng)生態(tài),合作共贏,讓白盒交換機(jī)的開發(fā)和集成更為簡單。這也是在2020年推動(dòng)發(fā)起S3IP的初衷和主旨。今天的S3IP,聯(lián)合了國內(nèi)幾乎所有的頭部互聯(lián)網(wǎng)廠家,也吸引了業(yè)內(nèi)主要的白盒交換機(jī)ODM廠家、商業(yè)芯片廠家。
如何打造網(wǎng)絡(luò)標(biāo)準(zhǔn)化新引擎的呢?
● 因?yàn)榘缀薪粨Q機(jī)底層驅(qū)動(dòng)向上接口的差異,造成了不同交換機(jī)需要投入重復(fù)的集成工作,為此提出了驅(qū)動(dòng)接口標(biāo)準(zhǔn)化sysfs。
● 因?yàn)榻粨Q機(jī)平臺(tái)測試上存在的差異化,提出了平臺(tái)測試標(biāo)準(zhǔn)化PIT。
● 因?yàn)閺S家SONiC系統(tǒng)和用戶環(huán)境及需求存在的差異,阿里云提出了D4OS這一標(biāo)準(zhǔn)化的廠家出貨的OS,不僅解決了統(tǒng)一的問題,同時(shí)也為D4OS植入了支持交換機(jī)大規(guī)模部署的程序,使得廠家OS能夠無縫對接用戶。
● 在硬件層面,為了支持軟件和系統(tǒng)更好地集成,從功能層面提出了硬件系統(tǒng)的基礎(chǔ)能力需求。
● 對于核心的CPU模組進(jìn)行了標(biāo)準(zhǔn)化,統(tǒng)一了用戶的需求,讓用戶和ODM的研發(fā)效率大大提升。
可以說,S3IP從最樸素的想法出發(fā),從點(diǎn)到面,已逐步構(gòu)建了一個(gè)國內(nèi)白盒交換機(jī)領(lǐng)域的標(biāo)準(zhǔn)體系。
圖 | S3IP
今天,S3IP生態(tài)已吸引了7家頭部互聯(lián)網(wǎng)公司、1家運(yùn)營商伙伴、10家交換機(jī)領(lǐng)域的系統(tǒng)廠家,7家芯片公司的加入,目前,已經(jīng)貢獻(xiàn)超過2萬+行代碼供生態(tài)伙伴使用,超過30款系統(tǒng)按照S3IP標(biāo)準(zhǔn)進(jìn)行適配。S3IP當(dāng)前的標(biāo)準(zhǔn)化覆蓋了白盒交換機(jī)底層硬件、底層軟件、平臺(tái)測試,正在向芯片標(biāo)準(zhǔn)化進(jìn)發(fā)。
S3IP在扎根國內(nèi)的同時(shí),也不忘輸出影響力到國際上。去年,S3IP將PIT/Sysfs推到了SONiC社區(qū),PIT/Sysfs HLD PR已獲通過;在未來網(wǎng)卡和交換機(jī)融合的新領(lǐng)域,S3IP也會(huì)和DASH社區(qū)保持緊密溝通。
圖 | S3IP-SONiC
QSFP112
除了S3IP這一白盒標(biāo)準(zhǔn)化組織,阿里在交換機(jī)端口的標(biāo)準(zhǔn)化上也進(jìn)行了持續(xù)的推動(dòng)和貢獻(xiàn),主導(dǎo)發(fā)起了QSFP112 MSA組織。
阿里的網(wǎng)絡(luò)架構(gòu),決定了在交換機(jī)設(shè)備上會(huì)持續(xù)走單芯片128端口的路線。結(jié)合交換芯片從25.6G到51.2G,再到102.4T的演進(jìn)路線,阿里的交換機(jī)端口會(huì)長期使用4個(gè)lane的方案。簡單來說,就是一個(gè)端口由四個(gè)高速串行電信號(hào)組成。
當(dāng)串行電信號(hào)的速率為25G,單個(gè)端口速率為100G,這就是業(yè)界現(xiàn)有的QSFP28標(biāo)準(zhǔn)。
串行電信號(hào)的速率為50G,單個(gè)端口速率為200G,業(yè)界標(biāo)準(zhǔn)就是QSFP56標(biāo)準(zhǔn)。
當(dāng)確定了長期的架構(gòu)方案后,我們發(fā)現(xiàn):當(dāng)串行電信號(hào)的速率達(dá)到112G的時(shí)候,也就是單端口400G的時(shí)候,業(yè)界還沒有這樣的標(biāo)準(zhǔn)(很大一部分原因是由于北美四大互聯(lián)網(wǎng)的網(wǎng)絡(luò)和交換機(jī)路線和我們存在差異,他們走的是單端口8個(gè)或16個(gè)高速串行信號(hào)的方案)。這便驅(qū)動(dòng)了阿里云在2021年率先發(fā)起QSFP112標(biāo)準(zhǔn)。使得整個(gè)產(chǎn)業(yè)鏈為400G時(shí)代做好了準(zhǔn)備,也為未來QSFP224標(biāo)準(zhǔn)打下了堅(jiān)實(shí)的基礎(chǔ)。
圖 | QSFP112
04
總結(jié)展望
阿里的白盒交換機(jī)自研趕上了云計(jì)算快速發(fā)展的年代。經(jīng)過多年的實(shí)戰(zhàn)檢驗(yàn),阿里在白盒交換機(jī)領(lǐng)域積累了豐富的經(jīng)驗(yàn)。
歸根到底,軟硬件自研服務(wù)的是阿里整個(gè)網(wǎng)絡(luò)架構(gòu)的平滑和快速迭代,降低單位帶寬的成本;同時(shí),軟硬件自研服務(wù)也為阿里的大規(guī)模自動(dòng)化運(yùn)營提供了基礎(chǔ)。
隨著處理器和存儲(chǔ)能力不斷升級,AI等新應(yīng)用的興起,網(wǎng)絡(luò)的性能變得愈加重要。在這樣的背景下,阿里提出了“可預(yù)期網(wǎng)絡(luò)”的理念。“可預(yù)期網(wǎng)絡(luò)”的核心,是通過端和網(wǎng)的協(xié)同與融合,保證網(wǎng)絡(luò)的帶寬和延遲,這一思想的前提,是需要端側(cè)和網(wǎng)側(cè)的透明,而交換機(jī)的自主可控是這個(gè)思想的基礎(chǔ)之一。
和傳統(tǒng)的計(jì)算不同,AI和智算有著特殊的流量模型,all-reduce的算法使得網(wǎng)絡(luò)更容易出現(xiàn)Incast,而任務(wù)本身對于Incast造成的擁塞也更為敏感。
新形勢下,我們的AI網(wǎng)絡(luò)如何搭建和優(yōu)化?我們的自研交換機(jī)怎樣配合新的網(wǎng)絡(luò)架構(gòu)去支持新的業(yè)務(wù)場景?這些都是阿里云“可預(yù)期網(wǎng)絡(luò)”目前需要思考的問題。“可預(yù)期網(wǎng)絡(luò)”的目標(biāo)和新興的智算業(yè)務(wù),驅(qū)動(dòng)著自研交換機(jī)的未來發(fā)展。