揭秘阿里云HAIL數(shù)據(jù)中心網(wǎng)絡(luò)

來源：算力基建

作者：于阿里云基礎(chǔ)設(shè)施

時間：2023-01-16

HAIL是阿里云數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的代號，取自High Availability（高可用），Intelligence（智能化），and Low Latency（低延時），代表著阿里云構(gòu)建數(shù)據(jù)中心網(wǎng)絡(luò)的理念。

本文帶大家探秘阿里云HAIL數(shù)據(jù)中心網(wǎng)絡(luò)，也展望數(shù)據(jù)中心網(wǎng)絡(luò)的未來。

01 云計算數(shù)據(jù)中心的發(fā)展

云計算數(shù)據(jù)中心是云計算的算力載體，今天所有的云計算服務(wù)都在數(shù)據(jù)中心這樣一個“超級電腦”中進(jìn)行著快速運(yùn)算，并通過互聯(lián)網(wǎng)將服務(wù)快速觸達(dá)全球用戶和各行各業(yè)。云計算數(shù)據(jù)中心大致上可與一臺電腦進(jìn)行類比，包含CPU、GPU、存儲、互聯(lián)，以及供電和制冷系統(tǒng)。如果你想了解數(shù)據(jù)中心網(wǎng)絡(luò)，拆開電腦機(jī)框，主板上那一條條連接著各種部件的金屬走線所發(fā)揮的作用，就是數(shù)據(jù)中心這個“超級電腦”中網(wǎng)絡(luò)在做的工作。當(dāng)然，數(shù)據(jù)中心網(wǎng)絡(luò)系統(tǒng)遠(yuǎn)比一臺電腦的內(nèi)部互聯(lián)復(fù)雜得多。

數(shù)據(jù)中心誕生之前，網(wǎng)絡(luò)主要用于全球互聯(lián)，以及企業(yè)內(nèi)部的組網(wǎng)互通，俗稱公網(wǎng)和內(nèi)網(wǎng)。初期的數(shù)據(jù)中心基于服務(wù)傳統(tǒng)企業(yè)網(wǎng)的技術(shù)進(jìn)行構(gòu)建，逐漸發(fā)展成為一個獨(dú)立的場景?；ヂ?lián)網(wǎng)和云計算公司為了向公眾提供互聯(lián)網(wǎng)服務(wù)（如媒體信息、通信交流、搜索查閱、網(wǎng)上購物等），需要自身具備服務(wù)全國甚至全球用戶的計算、存儲和網(wǎng)絡(luò)互聯(lián)能力，這要求后端技術(shù)平臺能夠處理高并發(fā)的請求，內(nèi)部系統(tǒng)則要對數(shù)據(jù)進(jìn)行快速的存儲、計算、搜索，再經(jīng)由互聯(lián)網(wǎng)絡(luò)將結(jié)果輸出給用戶。這種模型對互聯(lián)網(wǎng)和云計算的集中化算力能力提出了更高的要求，數(shù)據(jù)中心的場景也隨之誕生。

初期的數(shù)據(jù)中心網(wǎng)絡(luò)采用企業(yè)級的網(wǎng)絡(luò)設(shè)備進(jìn)行數(shù)據(jù)中心組網(wǎng)，如VPC、堆疊，大的二層域和OSPF路由協(xié)議等。這些網(wǎng)絡(luò)技術(shù)在較小的組網(wǎng)規(guī)模條件下并不會出現(xiàn)太大的問題，但伴隨著互聯(lián)網(wǎng)數(shù)據(jù)中心的算力規(guī)模越來越大，企業(yè)級的數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)就面臨著性能、穩(wěn)定性、大規(guī)模運(yùn)營等方面的挑戰(zhàn)。

02 阿里云HAIL全自研數(shù)據(jù)中心網(wǎng)絡(luò)

阿里巴巴從2013年進(jìn)入標(biāo)準(zhǔn)化數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)階段，開始基于商用設(shè)備進(jìn)行數(shù)據(jù)中心網(wǎng)絡(luò)的標(biāo)準(zhǔn)化構(gòu)建，并從互聯(lián)拓?fù)?、互?lián)協(xié)議層面進(jìn)行改善，逐步采用標(biāo)準(zhǔn)通用的適合數(shù)據(jù)中心組網(wǎng)的技術(shù)選型。

自2017年，阿里云進(jìn)入分布式大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)階段，取名HAIL架構(gòu)，用“Highly Availability，Intelligence，and Low-latency”描述數(shù)據(jù)中心網(wǎng)絡(luò)的核心理念。

圖 | HAIL：Highly Availability，Intelligence，and Low-latency

同一時期，為了進(jìn)一步自主掌控數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)棧，為產(chǎn)品打造更高效穩(wěn)定的網(wǎng)絡(luò)基礎(chǔ)設(shè)施，阿里云開始了全自研體系的設(shè)計和研發(fā)。HAIL DC5.2是第一代采用全自研交換機(jī)和光互聯(lián)的數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)，通過單芯片自研盒式設(shè)備來構(gòu)建多平面scale out（橫向可擴(kuò)展）的分布式數(shù)據(jù)中心網(wǎng)絡(luò)。

單芯片的架構(gòu)設(shè)計極大地簡化了網(wǎng)絡(luò)設(shè)備軟硬件復(fù)雜度，讓研發(fā)工作專注在阿里云HAIL數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)中使用的功能，考慮整網(wǎng)系統(tǒng)的穩(wěn)定性，而不必開發(fā)陷入復(fù)雜但效用不高的多芯片軟硬件功能。
多年積累的網(wǎng)絡(luò)運(yùn)維沉淀和自動化平臺能力，使得數(shù)據(jù)中心網(wǎng)絡(luò)系統(tǒng)具備了實現(xiàn)分布式大規(guī)模交付運(yùn)維的條件，大規(guī)模網(wǎng)絡(luò)設(shè)備的交付運(yùn)維監(jiān)控自動化，從經(jīng)驗積累逐步轉(zhuǎn)變成NET系統(tǒng)平臺（阿里云網(wǎng)絡(luò)交付運(yùn)維自動化的監(jiān)管控平臺）的能力。
全自研的軟硬件設(shè)備會與后端的監(jiān)控管控自動化作為一個整體進(jìn)行設(shè)計和研發(fā)，使得網(wǎng)絡(luò)設(shè)備與監(jiān)管控系統(tǒng)的聯(lián)動更加順暢，實現(xiàn)了高精度、高實時性的網(wǎng)絡(luò)性能監(jiān)控，快速發(fā)現(xiàn)問題并自動化響應(yīng)，數(shù)據(jù)中心自研系統(tǒng)成為一個整體，而不單單是自研的網(wǎng)絡(luò)設(shè)備。

圖 | 阿里云全自研數(shù)據(jù)中心網(wǎng)絡(luò)

自2019年，阿里云新建數(shù)據(jù)中心就全面采用了基于AliNOS （阿里云自研網(wǎng)絡(luò)操作系統(tǒng)）的自研交換機(jī)，如上圖，包括園區(qū)核心、集群核心、POD核心、接入TOR，以及基于P4可編程的網(wǎng)關(guān)設(shè)備SNA。

多平面互聯(lián)使得網(wǎng)絡(luò)集群規(guī)模靈活彈性，三層CLOS即可實現(xiàn)從幾千的小集群到十幾萬臺服務(wù)器接入的超大集群；
Scale out使得冗余度更高，單臺設(shè)備損失對整體數(shù)據(jù)中心幾乎無感知；
High-radix單芯片設(shè)備使得轉(zhuǎn)發(fā)跳數(shù)更少的情況下仍可以做到足夠的規(guī)模，將數(shù)據(jù)中心內(nèi)部的轉(zhuǎn)發(fā)時延壓縮到極致；
兩款設(shè)備即覆蓋了數(shù)據(jù)中心cluster的所有互聯(lián)場景，極大降低了供應(yīng)和運(yùn)維的邊際成本；
阿里去堆疊雙上聯(lián)徹底消除了堆疊系統(tǒng)帶來的穩(wěn)定性隱患，使得數(shù)據(jù)中心網(wǎng)絡(luò)的穩(wěn)定性提升了一個數(shù)量級，還同時解決了接入設(shè)備無法軟件升級的問題，尤其在通過發(fā)揮自研網(wǎng)絡(luò)快速迭代功能實現(xiàn)業(yè)務(wù)創(chuàng)新的背景下，網(wǎng)絡(luò)團(tuán)隊在設(shè)備升級上掌控主動權(quán)顯得尤其重要，有助于提升數(shù)據(jù)中心網(wǎng)絡(luò)的運(yùn)維可持續(xù)性。

03 數(shù)據(jù)中心網(wǎng)絡(luò)的技術(shù)趨勢展望

一般而言，云計算數(shù)據(jù)中心分為兩種類型的網(wǎng)絡(luò)服務(wù)，一種是面向用戶的網(wǎng)絡(luò)服務(wù)，即通過互聯(lián)網(wǎng)，或通過多數(shù)據(jù)中心互聯(lián)進(jìn)行數(shù)據(jù)搬移、訪問請求的網(wǎng)絡(luò)能力；另一種是對外部不可見的網(wǎng)絡(luò)能力，即內(nèi)部IO互聯(lián)，如大數(shù)據(jù)處理、分布式存儲等。我們在談?wù)摂?shù)據(jù)中心網(wǎng)絡(luò)能力時，更多是在討論后者，即DC as a computer這個“超級電腦”的內(nèi)部IO互聯(lián)（傳統(tǒng)意義上也叫做東西向流量）。

圖 | 數(shù)據(jù)中心網(wǎng)絡(luò)

近年來，隨著計算、存儲、網(wǎng)絡(luò)技術(shù)的不斷發(fā)展，數(shù)據(jù)中心網(wǎng)絡(luò)不但要求“穩(wěn)定的連通性”和“足夠的帶寬”，而且對“低時延”和“可預(yù)期網(wǎng)絡(luò)結(jié)果”的訴求也越來越明顯。

高性能計算歷來對網(wǎng)絡(luò)時延有苛刻的要求，簡單的帶寬堆砌并不能滿足要求；
大數(shù)據(jù)場景，尤其是人工智能場景的機(jī)器學(xué)習(xí)（特別是深度學(xué)習(xí)）場景催生了AI革命的到來，訓(xùn)練推理算力成為各大科技公司的必備基礎(chǔ)設(shè)施，這要求網(wǎng)絡(luò)的“帶寬+時延”均衡能力，以盡可能短的時間來完成大量數(shù)據(jù)的分發(fā)與聚合；
云計算分布式存儲，本質(zhì)上是“計算存儲資源分離 + 本地存儲性能要求”，隨著存儲介質(zhì)性能的升級，對網(wǎng)絡(luò)時延越來越敏感，要求不但是“低時延”，在用戶體驗上“穩(wěn)定可預(yù)期的IO”尤為關(guān)鍵。

池化也是一個核心趨勢。池化的概念很廣，對云計算數(shù)據(jù)中心而言，池化是永恒的主題，但不同階段池化的均衡點(diǎn)有所不同。廣義上，云計算本身就是算力的池化，對社會提供共享、低成本、簡單易用的算力，所以計算存儲網(wǎng)絡(luò)能力的構(gòu)建都是以“實現(xiàn)大池的同時又向用戶提供獨(dú)享的計算存儲網(wǎng)絡(luò)空間”作為目標(biāo)。狹義上，池化指的是計算、存儲在更小模型尺度上的池化，比如將異構(gòu)算力做成大池的同時如何做到給用戶以獨(dú)享性能級別的算力呈現(xiàn)，比如將存儲做成大池的同時如何給用戶以獨(dú)享本地存儲級別的IO性能，其核心挑戰(zhàn)是大規(guī)模池化后的系統(tǒng)性能如何隨著規(guī)模線性增長，這其中網(wǎng)絡(luò)作為系統(tǒng)IO是核心決定因素。

圖 | 異構(gòu)算力的池化

新的計算模型，以容器為基礎(chǔ)的云原生技術(shù)以應(yīng)用為中心，圍繞應(yīng)用來構(gòu)建彈性、簡單復(fù)制、高效運(yùn)維的基礎(chǔ)設(shè)施能力，對網(wǎng)絡(luò)的要求是“彈性”和“密度”，這看似對網(wǎng)絡(luò)的依賴不是很明顯，實際上云原生的形態(tài)要求云基礎(chǔ)設(shè)施呈現(xiàn)為更廣義的池化形態(tài)，使得云原生的計算、存儲、網(wǎng)絡(luò)、數(shù)據(jù)庫等系統(tǒng)可以屏蔽對底層基礎(chǔ)設(shè)施的功能感知，這也越來越要求網(wǎng)絡(luò)與容器的融合能力提升，云原生的網(wǎng)絡(luò)卸載加速會成為未來數(shù)據(jù)中心網(wǎng)絡(luò)的基礎(chǔ)能力。

從“大規(guī)模算力互聯(lián)”角度來看數(shù)據(jù)中心網(wǎng)絡(luò)未來的發(fā)展趨勢：

物理網(wǎng)絡(luò)芯片吞吐性能進(jìn)一步提升

網(wǎng)絡(luò)芯片的摩爾演進(jìn)將進(jìn)一步提升吞吐性能，這并不單單是通用計算的網(wǎng)絡(luò)需求曲線延續(xù)（實際上通用計算對網(wǎng)絡(luò)增長的需求在放緩，而異構(gòu)計算仍需求強(qiáng)烈），還包括網(wǎng)絡(luò)自身降低單位吞吐成本的目標(biāo)。在這個過程中會遇到芯片技術(shù)、供應(yīng)生態(tài)、成本等方面的挑戰(zhàn)，業(yè)界會形成新的應(yīng)對方式。

低時延轉(zhuǎn)發(fā)

低時延轉(zhuǎn)發(fā)會是高性能計算、AI、存儲和數(shù)據(jù)庫等池化場景的競爭力核心，這需要端到端網(wǎng)絡(luò)的全棧創(chuàng)新，從協(xié)議到流控再到網(wǎng)絡(luò)轉(zhuǎn)發(fā)。高性能計算、AI相對特殊，需要有獨(dú)立的拓?fù)湓O(shè)計乃至于特定的轉(zhuǎn)發(fā)芯片，這種低時延轉(zhuǎn)發(fā)不是一個絕大多數(shù)場景的趨勢和訴求，但這方面的創(chuàng)新會引領(lǐng)帶動其他通用場景的技術(shù)演進(jìn)，發(fā)揮“特定場景創(chuàng)新傳導(dǎo)給通用場景”的創(chuàng)新效應(yīng)。

04 可預(yù)期網(wǎng)絡(luò)

技術(shù)發(fā)展是一個螺旋上升的過程，上文提到的數(shù)據(jù)中心技術(shù)趨勢會催生網(wǎng)絡(luò)技術(shù)的變革。阿里云很早就預(yù)見到了這些技術(shù)趨勢，并于2019年提出了“可預(yù)期網(wǎng)絡(luò)”的未來網(wǎng)絡(luò)發(fā)展方向，近年來也在基于可預(yù)期網(wǎng)絡(luò)構(gòu)建整個數(shù)據(jù)中心體系。

以太網(wǎng)最初以“best-effort”這種簡單粗暴的方式脫穎而出成為主流，將流控、丟包處理等工作交給靈活的端側(cè)軟件，通過端到端的機(jī)制來實現(xiàn)，以太網(wǎng)自己則專注于轉(zhuǎn)發(fā)，這使得以太網(wǎng)轉(zhuǎn)發(fā)能力一騎絕塵，從全局來看這是一種“最經(jīng)濟(jì)”的分工模式。然而，隨著上文提到的技術(shù)趨勢越來越明顯，以太網(wǎng)的“盡力而為”將會成為一些場景下的短板，如何基于以太網(wǎng)實現(xiàn)“可預(yù)期”的網(wǎng)絡(luò)服務(wù)，是網(wǎng)絡(luò)發(fā)展的關(guān)鍵命題?？深A(yù)期網(wǎng)絡(luò)意味著應(yīng)用對于網(wǎng)絡(luò)的行為結(jié)果有相對可控的預(yù)期，并基于這個預(yù)期來設(shè)計應(yīng)用系統(tǒng)，這會讓應(yīng)用架構(gòu)更簡單。就好比交通出行，對于中長途旅行，選擇飛機(jī)雖時間短但存在較大延誤風(fēng)險，選擇汽車可有大致可控的范圍但旅途時間長，而高鐵是準(zhǔn)時發(fā)車準(zhǔn)時抵達(dá)，時間相對短且誤差最小，不必?fù)?dān)心因為行程耽誤某個重要會議，這使得整個社會在時間效率上可以做到更好?？深A(yù)期網(wǎng)絡(luò)的理念即是如此，讓應(yīng)用更簡單，效率更高。

可預(yù)期網(wǎng)絡(luò)，首先要做的是實現(xiàn)技術(shù)棧的自主掌控。阿里云已經(jīng)實現(xiàn)了基于自研的網(wǎng)卡、交換機(jī)、光互聯(lián)來構(gòu)建自主掌控的數(shù)據(jù)中心網(wǎng)絡(luò)，這使得底層網(wǎng)絡(luò)變得穩(wěn)定可控。剛剛過去的云棲大會上，阿里云發(fā)布了多項可預(yù)期網(wǎng)絡(luò)新品，其中的關(guān)鍵因素是技術(shù)棧的自主掌控。

圖 | 阿里巴巴網(wǎng)絡(luò)自研全景圖

阿里云提出協(xié)同設(shè)計（下圖）的架構(gòu)理念來實現(xiàn)端到端的可預(yù)期網(wǎng)絡(luò)。對云計算系統(tǒng)而言，網(wǎng)絡(luò)是整體系統(tǒng)設(shè)計中的一環(huán)，基于協(xié)同設(shè)計的理念，我們通過網(wǎng)絡(luò)與應(yīng)用的協(xié)同設(shè)計、端側(cè)網(wǎng)絡(luò)與交換網(wǎng)絡(luò)的協(xié)同設(shè)計、網(wǎng)絡(luò)架構(gòu)創(chuàng)新升級三個方面來實現(xiàn)可預(yù)期網(wǎng)絡(luò)，近年來阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)團(tuán)隊已經(jīng)在這三個方面已經(jīng)取得了很多研究研發(fā)成果，大部分技術(shù)也已經(jīng)實現(xiàn)了規(guī)模部署。

圖 | 端網(wǎng)協(xié)同的系統(tǒng)架構(gòu)與成果

可預(yù)期網(wǎng)絡(luò)將是一個系統(tǒng)工程，從網(wǎng)絡(luò)物理元素的軟硬件全自研，到針對產(chǎn)品技術(shù)棧優(yōu)化的高性能協(xié)議和流控，從端到端的網(wǎng)絡(luò)系統(tǒng)設(shè)計再到基于可編程芯片的硬件加速，最后由網(wǎng)絡(luò)后端監(jiān)管控系統(tǒng)來支撐整體網(wǎng)絡(luò)的智能化運(yùn)維，這些能力融合在一起，形成了一個完整的可預(yù)期數(shù)據(jù)中心網(wǎng)絡(luò)體系。

圖 | 阿里云高性能可預(yù)期數(shù)據(jù)中心網(wǎng)絡(luò)體系

—END—

阿里云出海干貨互聯(lián)網(wǎng)

上一篇：民意調(diào)查：沙特和阿聯(lián)酋消費(fèi)者購買力依然強(qiáng)勁

原文鏈接：點(diǎn)擊前往 >

版權(quán)說明：本文內(nèi)容來自于算力基建，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點(diǎn)，不代表快出海對觀點(diǎn)贊同或支持。如有侵權(quán)，請聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章