阿里云張彭城:阿里高性能網(wǎng)絡(luò)探索與實(shí)踐

來源: IT之家
作者:IT之家
時間:2021-10-09
17528
9月25日,2021中國智能網(wǎng)卡研討會在北京隆重召開。本屆大會由“科創(chuàng)中國”未來網(wǎng)絡(luò)專業(yè)科技服務(wù)團(tuán)指導(dǎo),江蘇省未來網(wǎng)絡(luò)創(chuàng)新研究院、網(wǎng)絡(luò)通信與安全紫金山實(shí)驗室聯(lián)合主辦,SDNLAB社區(qū)承辦。阿里云基礎(chǔ)設(shè)施事業(yè)部高性能網(wǎng)絡(luò)團(tuán)隊高級技術(shù)專家張彭城先生帶來了演講“阿里高性能網(wǎng)絡(luò)探索與實(shí)踐”。

9月25日,2021中國智能網(wǎng)卡研討會在北京隆重召開。本屆大會由“科創(chuàng)中國”未來網(wǎng)絡(luò)專業(yè)科技服務(wù)團(tuán)指導(dǎo),江蘇省未來網(wǎng)絡(luò)創(chuàng)新研究院、網(wǎng)絡(luò)通信與安全紫金山實(shí)驗室聯(lián)合主辦,SDNLAB社區(qū)承辦。阿里云基礎(chǔ)設(shè)施事業(yè)部高性能網(wǎng)絡(luò)團(tuán)隊高級技術(shù)專家張彭城先生帶來了演講“阿里高性能網(wǎng)絡(luò)探索與實(shí)踐”。

張彭城指出,數(shù)據(jù)中心發(fā)展更偏向于應(yīng)用的發(fā)展,數(shù)據(jù)中心發(fā)展的三個階段:一是企業(yè)網(wǎng)絡(luò)為主,在這個階段廠商的設(shè)備為主導(dǎo),人肉運(yùn)營。二是隨著互聯(lián)網(wǎng)應(yīng)用的發(fā)展,出現(xiàn)了Scale out超大規(guī)模、軟件定義網(wǎng)絡(luò)、虛擬化、白盒化、運(yùn)營自動化等技術(shù)。三是隨著云計算的發(fā)展,對數(shù)據(jù)中心網(wǎng)絡(luò)提出更高的要求,對于彈性、供給、利用率提出更高的要求。

2013-2017年,阿里數(shù)據(jù)中心網(wǎng)絡(luò)正式進(jìn)入1.0時代,企業(yè)級網(wǎng)絡(luò)架構(gòu)主要是架構(gòu)標(biāo)準(zhǔn)化、模塊化、網(wǎng)絡(luò)虛擬化。

2017-2019年,互聯(lián)網(wǎng)級網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)了超大規(guī)模、高可靠、高性能、成本優(yōu)化。通過自主研發(fā)軟硬件設(shè)備,實(shí)現(xiàn)自主可控?;诖髷?shù)據(jù)的自動化智能化,實(shí)現(xiàn)運(yùn)營自動化。

張彭城重點(diǎn)介紹了阿里云的Network 3.0階段。未來面向超大規(guī)模云計算場景該如何支撐數(shù)據(jù)中心網(wǎng)絡(luò)?阿里云提出了池化數(shù)據(jù)中心網(wǎng)絡(luò)理念。

原有的數(shù)據(jù)中心架構(gòu)存在資源利用率低、機(jī)型演進(jìn)復(fù)雜、運(yùn)維成本高、可擴(kuò)展性差等問題。池化數(shù)據(jù)中心網(wǎng)絡(luò)是把所有的CPU、內(nèi)存、xPU、storage全部解耦,通過網(wǎng)絡(luò)把它連起來,但實(shí)現(xiàn)起來也比較復(fù)雜。池化數(shù)據(jù)中心受網(wǎng)絡(luò)的影響非常大。以AI應(yīng)用為例,高速網(wǎng)絡(luò)的性能損耗遠(yuǎn)遠(yuǎn)低于低速網(wǎng)絡(luò)性能損耗,因此池化數(shù)據(jù)中心的實(shí)現(xiàn)必須依靠高性能網(wǎng)絡(luò)。

張彭城指出,數(shù)據(jù)中心網(wǎng)絡(luò)的最大挑戰(zhàn)是它的時延,主要體現(xiàn)在主機(jī)協(xié)議棧的處理和交換機(jī)擁塞引入動態(tài)延時兩個方面。我們要提升數(shù)據(jù)中心網(wǎng)絡(luò)的性能,最主要是從這兩方面去著手和優(yōu)化。

高性能網(wǎng)絡(luò)的核心思想是端網(wǎng)協(xié)同,端側(cè)是通過網(wǎng)卡和DPU硬件卸載網(wǎng)絡(luò)協(xié)議棧,提升網(wǎng)絡(luò)性能。網(wǎng)側(cè)需要提供精確網(wǎng)絡(luò)信息的反饋,讓端側(cè)可以做更高效的流控以及路徑選擇。通過端網(wǎng)協(xié)同的網(wǎng)絡(luò)流控,多路徑優(yōu)化和全鏈路網(wǎng)絡(luò)QoS等機(jī)制來降低網(wǎng)絡(luò)動態(tài)延時,減少網(wǎng)絡(luò)擁塞,故障時快速切換,保障大小流之間的公平性,有效處理網(wǎng)絡(luò)incast。

阿里高性能網(wǎng)絡(luò)的探索和演進(jìn)分為三個階段。

第一階段(2017年-2018年),RDMA大規(guī)模落地。

1、RDMA在阿里云多個產(chǎn)品實(shí)現(xiàn)大規(guī)模落地;

2、端到端的流控,應(yīng)用性能調(diào)優(yōu);

3、消除RDMA穩(wěn)定性風(fēng)險:建立端網(wǎng)協(xié)同的運(yùn)營體系,消除PFC風(fēng)險。

第二階段(2019~2020):自研之路。

1、自研高性能網(wǎng)絡(luò)協(xié)議:HPCC擁塞控制算法、Multi-path、xRD傳輸方式,去PFC實(shí)現(xiàn)Lossy RDMA,進(jìn)一步優(yōu)化長尾延時,增加RDMA擴(kuò)展性;

2、自研高性能網(wǎng)卡:實(shí)現(xiàn)自研高性能網(wǎng)絡(luò)協(xié)議卸載,目前已經(jīng)落地云存儲;

3、自研高性能通信庫:針對大規(guī)模AI集群,優(yōu)化集合通信功能,利用端網(wǎng)融合技術(shù)深度結(jié)合大規(guī)模AI集群的互聯(lián)架構(gòu)和多網(wǎng)卡特性,實(shí)現(xiàn)創(chuàng)新的無擁塞算法和高速網(wǎng)絡(luò)傳輸。

第三階段(2021~):總線+網(wǎng)絡(luò)融合。

這個階段阿里已經(jīng)進(jìn)行兩年的探索,并進(jìn)行了大量的POC,但是仍有很多待突破難題,張彭城主要分享了阿里在探索過程中遇到的一些問題,有些已經(jīng)有了解決思路,有些可能還是需要業(yè)界一起去推動:

1、協(xié)議融合:是使用總線協(xié)議擴(kuò)展,還是PCIE/CXL over Ethernet?總線和網(wǎng)絡(luò)的邊界在哪里?性能和擴(kuò)展性問題如何trade-off?

2、硬件載體:是用SmartNIC?DPU?還是Switch?DPU作為數(shù)據(jù)處理單元,而switch作為數(shù)據(jù)匯聚的點(diǎn),是否DPU位于switch更為合適?

3、網(wǎng)絡(luò)架構(gòu):Fat-tree是否還適用?目前主流的數(shù)據(jù)中心架構(gòu)主要解決了大規(guī)模Scale-out問題,但是它的層數(shù)和跳數(shù)非常多,可能無法滿足池化網(wǎng)絡(luò)的延時要求,是否可以考慮其他的拓?fù)浼軜?gòu)?

張彭城表示,未來實(shí)現(xiàn)極致池化數(shù)據(jù)中心還有很多難題需要處理,希望可以跟大家共同探討

立即登錄,閱讀全文
版權(quán)說明:
本文內(nèi)容來自于IT之家,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點(diǎn),不代表快出海對觀點(diǎn)贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多