HAIL是阿里云數(shù)據(jù)中心網(wǎng)絡架構的代號,取自High Availability(高可用),Intelligence(智能化),and Low Latency(低延時),代表著阿里云構建數(shù)據(jù)中心網(wǎng)絡的理念。
本文帶大家探秘阿里云HAIL數(shù)據(jù)中心網(wǎng)絡,也展望數(shù)據(jù)中心網(wǎng)絡的未來。
01 云計算數(shù)據(jù)中心的發(fā)展
數(shù)據(jù)中心誕生之前,網(wǎng)絡主要用于全球互聯(lián),以及企業(yè)內(nèi)部的組網(wǎng)互通,俗稱公網(wǎng)和內(nèi)網(wǎng)。初期的數(shù)據(jù)中心基于服務傳統(tǒng)企業(yè)網(wǎng)的技術進行構建,逐漸發(fā)展成為一個獨立的場景?;ヂ?lián)網(wǎng)和云計算公司為了向公眾提供互聯(lián)網(wǎng)服務(如媒體信息、通信交流、搜索查閱、網(wǎng)上購物等),需要自身具備服務全國甚至全球用戶的計算、存儲和網(wǎng)絡互聯(lián)能力,這要求后端技術平臺能夠處理高并發(fā)的請求,內(nèi)部系統(tǒng)則要對數(shù)據(jù)進行快速的存儲、計算、搜索,再經(jīng)由互聯(lián)網(wǎng)絡將結(jié)果輸出給用戶。這種模型對互聯(lián)網(wǎng)和云計算的集中化算力能力提出了更高的要求,數(shù)據(jù)中心的場景也隨之誕生。
初期的數(shù)據(jù)中心網(wǎng)絡采用企業(yè)級的網(wǎng)絡設備進行數(shù)據(jù)中心組網(wǎng),如VPC、堆疊,大的二層域和OSPF路由協(xié)議等。這些網(wǎng)絡技術在較小的組網(wǎng)規(guī)模條件下并不會出現(xiàn)太大的問題,但伴隨著互聯(lián)網(wǎng)數(shù)據(jù)中心的算力規(guī)模越來越大,企業(yè)級的數(shù)據(jù)中心網(wǎng)絡技術就面臨著性能、穩(wěn)定性、大規(guī)模運營等方面的挑戰(zhàn)。
02 阿里云HAIL全自研數(shù)據(jù)中心網(wǎng)絡
自2017年,阿里云進入分布式大規(guī)模數(shù)據(jù)中心網(wǎng)絡階段,取名HAIL架構,用“Highly Availability,Intelligence,and Low-latency”描述數(shù)據(jù)中心網(wǎng)絡的核心理念。
圖 | HAIL:Highly Availability,Intelligence,and Low-latency
同一時期,為了進一步自主掌控數(shù)據(jù)中心網(wǎng)絡技術棧,為產(chǎn)品打造更高效穩(wěn)定的網(wǎng)絡基礎設施,阿里云開始了全自研體系的設計和研發(fā)。HAIL DC5.2是第一代采用全自研交換機和光互聯(lián)的數(shù)據(jù)中心網(wǎng)絡架構,通過單芯片自研盒式設備來構建多平面scale out(橫向可擴展)的分布式數(shù)據(jù)中心網(wǎng)絡。
單芯片的架構設計極大地簡化了網(wǎng)絡設備軟硬件復雜度,讓研發(fā)工作專注在阿里云HAIL數(shù)據(jù)中心網(wǎng)絡架構中使用的功能,考慮整網(wǎng)系統(tǒng)的穩(wěn)定性,而不必開發(fā)陷入復雜但效用不高的多芯片軟硬件功能。
多年積累的網(wǎng)絡運維沉淀和自動化平臺能力,使得數(shù)據(jù)中心網(wǎng)絡系統(tǒng)具備了實現(xiàn)分布式大規(guī)模交付運維的條件,大規(guī)模網(wǎng)絡設備的交付運維監(jiān)控自動化,從經(jīng)驗積累逐步轉(zhuǎn)變成NET系統(tǒng)平臺(阿里云網(wǎng)絡交付運維自動化的監(jiān)管控平臺)的能力。
全自研的軟硬件設備會與后端的監(jiān)控管控自動化作為一個整體進行設計和研發(fā),使得網(wǎng)絡設備與監(jiān)管控系統(tǒng)的聯(lián)動更加順暢,實現(xiàn)了高精度、高實時性的網(wǎng)絡性能監(jiān)控,快速發(fā)現(xiàn)問題并自動化響應,數(shù)據(jù)中心自研系統(tǒng)成為一個整體,而不單單是自研的網(wǎng)絡設備。
圖 | 阿里云全自研數(shù)據(jù)中心網(wǎng)絡
自2019年,阿里云新建數(shù)據(jù)中心就全面采用了基于AliNOS (阿里云自研網(wǎng)絡操作系統(tǒng))的自研交換機,如上圖,包括園區(qū)核心、集群核心、POD核心、接入TOR,以及基于P4可編程的網(wǎng)關設備SNA。
多平面互聯(lián)使得網(wǎng)絡集群規(guī)模靈活彈性,三層CLOS即可實現(xiàn)從幾千的小集群到十幾萬臺服務器接入的超大集群;
Scale out使得冗余度更高,單臺設備損失對整體數(shù)據(jù)中心幾乎無感知;
High-radix單芯片設備使得轉(zhuǎn)發(fā)跳數(shù)更少的情況下仍可以做到足夠的規(guī)模,將數(shù)據(jù)中心內(nèi)部的轉(zhuǎn)發(fā)時延壓縮到極致;
兩款設備即覆蓋了數(shù)據(jù)中心cluster的所有互聯(lián)場景,極大降低了供應和運維的邊際成本;
阿里去堆疊雙上聯(lián)徹底消除了堆疊系統(tǒng)帶來的穩(wěn)定性隱患,使得數(shù)據(jù)中心網(wǎng)絡的穩(wěn)定性提升了一個數(shù)量級,還同時解決了接入設備無法軟件升級的問題,尤其在通過發(fā)揮自研網(wǎng)絡快速迭代功能實現(xiàn)業(yè)務創(chuàng)新的背景下,網(wǎng)絡團隊在設備升級上掌控主動權顯得尤其重要,有助于提升數(shù)據(jù)中心網(wǎng)絡的運維可持續(xù)性。
03 數(shù)據(jù)中心網(wǎng)絡的技術趨勢展望
圖 | 數(shù)據(jù)中心網(wǎng)絡
近年來,隨著計算、存儲、網(wǎng)絡技術的不斷發(fā)展,數(shù)據(jù)中心網(wǎng)絡不但要求“穩(wěn)定的連通性”和“足夠的帶寬”,而且對“低時延”和“可預期網(wǎng)絡結(jié)果”的訴求也越來越明顯。
高性能計算歷來對網(wǎng)絡時延有苛刻的要求,簡單的帶寬堆砌并不能滿足要求;
大數(shù)據(jù)場景,尤其是人工智能場景的機器學習(特別是深度學習)場景催生了AI革命的到來,訓練推理算力成為各大科技公司的必備基礎設施,這要求網(wǎng)絡的“帶寬+時延”均衡能力,以盡可能短的時間來完成大量數(shù)據(jù)的分發(fā)與聚合;
云計算分布式存儲,本質(zhì)上是“計算存儲資源分離 + 本地存儲性能要求”,隨著存儲介質(zhì)性能的升級,對網(wǎng)絡時延越來越敏感,要求不但是“低時延”,在用戶體驗上“穩(wěn)定可預期的IO”尤為關鍵。
池化也是一個核心趨勢。池化的概念很廣,對云計算數(shù)據(jù)中心而言,池化是永恒的主題,但不同階段池化的均衡點有所不同。廣義上,云計算本身就是算力的池化,對社會提供共享、低成本、簡單易用的算力,所以計算存儲網(wǎng)絡能力的構建都是以“實現(xiàn)大池的同時又向用戶提供獨享的計算存儲網(wǎng)絡空間”作為目標。狹義上,池化指的是計算、存儲在更小模型尺度上的池化,比如將異構算力做成大池的同時如何做到給用戶以獨享性能級別的算力呈現(xiàn),比如將存儲做成大池的同時如何給用戶以獨享本地存儲級別的IO性能,其核心挑戰(zhàn)是大規(guī)模池化后的系統(tǒng)性能如何隨著規(guī)模線性增長,這其中網(wǎng)絡作為系統(tǒng)IO是核心決定因素。
圖 | 異構算力的池化
新的計算模型,以容器為基礎的云原生技術以應用為中心,圍繞應用來構建彈性、簡單復制、高效運維的基礎設施能力,對網(wǎng)絡的要求是“彈性”和“密度”,這看似對網(wǎng)絡的依賴不是很明顯,實際上云原生的形態(tài)要求云基礎設施呈現(xiàn)為更廣義的池化形態(tài),使得云原生的計算、存儲、網(wǎng)絡、數(shù)據(jù)庫等系統(tǒng)可以屏蔽對底層基礎設施的功能感知,這也越來越要求網(wǎng)絡與容器的融合能力提升,云原生的網(wǎng)絡卸載加速會成為未來數(shù)據(jù)中心網(wǎng)絡的基礎能力。
從“大規(guī)模算力互聯(lián)”角度來看數(shù)據(jù)中心網(wǎng)絡未來的發(fā)展趨勢:
物理網(wǎng)絡芯片吞吐性能進一步提升
網(wǎng)絡芯片的摩爾演進將進一步提升吞吐性能,這并不單單是通用計算的網(wǎng)絡需求曲線延續(xù)(實際上通用計算對網(wǎng)絡增長的需求在放緩,而異構計算仍需求強烈),還包括網(wǎng)絡自身降低單位吞吐成本的目標。在這個過程中會遇到芯片技術、供應生態(tài)、成本等方面的挑戰(zhàn),業(yè)界會形成新的應對方式。
低時延轉(zhuǎn)發(fā)
低時延轉(zhuǎn)發(fā)會是高性能計算、AI、存儲和數(shù)據(jù)庫等池化場景的競爭力核心,這需要端到端網(wǎng)絡的全棧創(chuàng)新,從協(xié)議到流控再到網(wǎng)絡轉(zhuǎn)發(fā)。高性能計算、AI相對特殊,需要有獨立的拓撲設計乃至于特定的轉(zhuǎn)發(fā)芯片,這種低時延轉(zhuǎn)發(fā)不是一個絕大多數(shù)場景的趨勢和訴求,但這方面的創(chuàng)新會引領帶動其他通用場景的技術演進,發(fā)揮“特定場景創(chuàng)新傳導給通用場景”的創(chuàng)新效應。
04 可預期網(wǎng)絡
以太網(wǎng)最初以“best-effort”這種簡單粗暴的方式脫穎而出成為主流,將流控、丟包處理等工作交給靈活的端側(cè)軟件,通過端到端的機制來實現(xiàn),以太網(wǎng)自己則專注于轉(zhuǎn)發(fā),這使得以太網(wǎng)轉(zhuǎn)發(fā)能力一騎絕塵,從全局來看這是一種“最經(jīng)濟”的分工模式。然而,隨著上文提到的技術趨勢越來越明顯,以太網(wǎng)的“盡力而為”將會成為一些場景下的短板,如何基于以太網(wǎng)實現(xiàn)“可預期”的網(wǎng)絡服務,是網(wǎng)絡發(fā)展的關鍵命題??深A期網(wǎng)絡意味著應用對于網(wǎng)絡的行為結(jié)果有相對可控的預期,并基于這個預期來設計應用系統(tǒng),這會讓應用架構更簡單。就好比交通出行,對于中長途旅行,選擇飛機雖時間短但存在較大延誤風險,選擇汽車可有大致可控的范圍但旅途時間長,而高鐵是準時發(fā)車準時抵達,時間相對短且誤差最小,不必擔心因為行程耽誤某個重要會議,這使得整個社會在時間效率上可以做到更好??深A期網(wǎng)絡的理念即是如此,讓應用更簡單,效率更高。
可預期網(wǎng)絡,首先要做的是實現(xiàn)技術棧的自主掌控。阿里云已經(jīng)實現(xiàn)了基于自研的網(wǎng)卡、交換機、光互聯(lián)來構建自主掌控的數(shù)據(jù)中心網(wǎng)絡,這使得底層網(wǎng)絡變得穩(wěn)定可控。剛剛過去的云棲大會上,阿里云發(fā)布了多項可預期網(wǎng)絡新品,其中的關鍵因素是技術棧的自主掌控。
圖 | 阿里巴巴網(wǎng)絡自研全景圖
阿里云提出協(xié)同設計(下圖)的架構理念來實現(xiàn)端到端的可預期網(wǎng)絡。對云計算系統(tǒng)而言,網(wǎng)絡是整體系統(tǒng)設計中的一環(huán),基于協(xié)同設計的理念,我們通過網(wǎng)絡與應用的協(xié)同設計、端側(cè)網(wǎng)絡與交換網(wǎng)絡的協(xié)同設計、網(wǎng)絡架構創(chuàng)新升級三個方面來實現(xiàn)可預期網(wǎng)絡,近年來阿里云基礎設施網(wǎng)絡團隊已經(jīng)在這三個方面已經(jīng)取得了很多研究研發(fā)成果,大部分技術也已經(jīng)實現(xiàn)了規(guī)模部署。
圖 | 端網(wǎng)協(xié)同的系統(tǒng)架構與成果
可預期網(wǎng)絡將是一個系統(tǒng)工程,從網(wǎng)絡物理元素的軟硬件全自研,到針對產(chǎn)品技術棧優(yōu)化的高性能協(xié)議和流控,從端到端的網(wǎng)絡系統(tǒng)設計再到基于可編程芯片的硬件加速,最后由網(wǎng)絡后端監(jiān)管控系統(tǒng)來支撐整體網(wǎng)絡的智能化運維,這些能力融合在一起,形成了一個完整的可預期數(shù)據(jù)中心網(wǎng)絡體系。
圖 | 阿里云高性能可預期數(shù)據(jù)中心網(wǎng)絡體系
—END—