連續(xù)三年入選國際頂會,彰顯了阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)團隊的技術(shù)沉淀和強大的研發(fā)實力。
SNA計算平臺已在阿里云各個場景規(guī)模部署,例如網(wǎng)絡(luò)可視化、邊緣云超融合網(wǎng)關(guān)、安全、高性能、以及云網(wǎng)關(guān)等。
XLINK已集成在手淘完成了大規(guī)模測試,測試結(jié)果優(yōu)異,即將開源XLINK的整體架構(gòu)和協(xié)議,將著力與整個業(yè)界一同打造多路徑QUIC協(xié)議,為消費者提供更好的體驗。
近日,SIGCOMM 2021論文錄取結(jié)果公布, 阿里云網(wǎng)絡(luò)以三篇論文命中的驕人戰(zhàn)績向世人展示著來自東方的創(chuàng)新風(fēng)暴,也續(xù)寫了阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)團隊從2019年開始與SIGCOMM 不間斷的“緣分”!
SIGCOMM,全稱Special Interest Group on Data Communication,是目前國際通信網(wǎng)絡(luò)領(lǐng)域的頂尖會議,也 是全球最頂尖科研機構(gòu)、高校和互聯(lián)網(wǎng)公司展示自身最先進技術(shù)和經(jīng)驗,帶領(lǐng)網(wǎng)絡(luò)技術(shù)各個領(lǐng)域向前發(fā)展的年度盛會。2019年,阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)團隊在SIGCOMM上實現(xiàn)了主會論文的首次歷史性突破,2020年,4篇論文入選震動了網(wǎng)絡(luò)界,今年又再中三元。連續(xù)三年入選國際頂會,也彰顯了阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)團隊的技術(shù)沉淀和強大的研發(fā)實力。
與一般學(xué)術(shù)論文不同的是,此次入選的三篇論文 不但有創(chuàng)新性想法,更重要的是將理論落地,運用在阿里的具體產(chǎn)品中,為用戶帶來技術(shù)普惠。下面我們將近距離看一下,這三顆阿里網(wǎng)絡(luò)技術(shù)的“明珠”到底憑什么秘訣得到SIGCOMM評委的青睞。
01、Aquila:阿里云可編程異構(gòu)計算驗證器
可編程交換芯片(programmable switching ASIC)自 2015年問世以來,就受到了全球幾乎所有云網(wǎng)絡(luò)公司及科研學(xué)術(shù)界的極大關(guān)注與歡迎。它可以看做是 一種異構(gòu)計算硬件,其本質(zhì)是通過對交換機芯片的編程,將原本依賴CPU計算的軟件版網(wǎng)絡(luò)應(yīng)用“卸載”到交換芯片硬件上,從而獲得高達T級的網(wǎng)絡(luò)數(shù)據(jù)包處理能力,極大提升網(wǎng)絡(luò)應(yīng)用的帶寬且降低延遲;同時,由于可編程芯片的靈活可編程性,開發(fā)人員可以像軟件開發(fā)一樣靈活地的定制交換芯片的處理邏輯。當(dāng)前的主流芯片廠商已紛紛推出了各自的可編程芯片,利用可編程芯片來加速基礎(chǔ)設(shè)施的處理能力已被認為是未來一條重要的技術(shù)方向。
然而,在過去幾年,雖然學(xué)術(shù)界同仁發(fā)表了大量利用可編程芯片實現(xiàn)各種應(yīng)用的論文,卻從未看到任何云網(wǎng)絡(luò)公司大規(guī)模部署可編程芯片的實例。究其原因,主要 由于該技術(shù)尚屬于較為前沿階段,雖然其價值被廣泛認可,但其部署效率、穩(wěn)定性等都存在諸多技術(shù)挑戰(zhàn)和開放性難題,因此令很多科技公司望而卻步。
阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)團隊作為可編程網(wǎng)絡(luò)領(lǐng)域的早期發(fā)起者和推動者,多年以來一直致力于在整個可編程網(wǎng)絡(luò)的應(yīng)用和生態(tài)平臺上做出突破性的工作,帶動整個產(chǎn)業(yè)向前發(fā)展。在阿里云諸多工作中,“太玄OS”可編程網(wǎng)絡(luò)開發(fā)、驗證、測試和發(fā)布平臺成為了一個在學(xué)術(shù)和產(chǎn)業(yè)落地雙豐收的明星項目(如圖1所示)。 在SIGCOMM20,太玄OS發(fā)表了自己的跨平臺編程語言和編譯器Lyra(“Lyra: A Cross-Platform Language and Compiler for Data Plane Programming on Heterogeneous ASICs”),闡明了可編程網(wǎng)絡(luò)領(lǐng)域在編程抽象層面的巨大挑戰(zhàn)和揭示了阿里云的解決方案。
圖1|阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)團隊自主研發(fā)的“太玄OS”可編程網(wǎng)絡(luò)異構(gòu)計算平臺
今年,阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)團隊又發(fā)表了Lyra的姊妹篇Aquila (“Aquila: A Practically Usable Verification System for Production-Scale Programmable Data Planes ”)來介紹阿里對可編程網(wǎng)絡(luò)程序正確性保障方面的獨樹一幟的創(chuàng)新和大規(guī)模的落地經(jīng)驗。Aquila的目標(biāo)是利用形式化驗證的方法來發(fā)現(xiàn)異構(gòu)環(huán)境下底層程序的bug,以避免系統(tǒng)上線后的穩(wěn)定性風(fēng)險。它通過實際的運行和部署經(jīng)驗指出了目前學(xué)術(shù)界在這個方面的工作的不足,并且通過自主研發(fā)的系統(tǒng)解決了如:表達性、可擴展性、可追溯性和驗證器自證清白能力等在業(yè)界懸而未決的問題。Aquila已經(jīng)在阿里云ENS/CDN的邊緣計算場景中大量使用,為阿里邊緣云的穩(wěn)定性保駕護航。
02、XGW:阿里云可編程硬件網(wǎng)關(guān)
阿里云在可編程網(wǎng)絡(luò)領(lǐng)域的另一個重要舉措就是打造自主可控的以SNA (Smart Networking Appliance) 硬件和AliNOS (Alibaba Network Operating System)軟件為基礎(chǔ)的軟硬件一體化的可編程計算平臺和在這個平臺上的應(yīng)用。圖2展示了整個阿里自研SNA可編程計算平臺的概覽。SNA平臺的軟件層運行阿里自研的網(wǎng)絡(luò)操作系統(tǒng)AliNOS,硬件層包含了可編程芯片、FPGA、x86以及靈活插口等。SNA作為底層設(shè)備,上面由平臺能力如:監(jiān)控、交付/變更、太玄編譯/驗證,以及測試等保證SNA的運營效率與穩(wěn)定性。目前, SNA計算平臺已在阿里云各個場景規(guī)模部署,例如網(wǎng)絡(luò)可視化、邊緣云超融合網(wǎng)關(guān)、安全、高性能、以及云網(wǎng)關(guān)等。在SIGCOMM20中,阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)團隊發(fā)表的“NetSeer:Flow Event Telemetry on Programmable Data Plane”就已經(jīng)率先揭開了阿里云在可編程網(wǎng)絡(luò)應(yīng)用上的冰山一角。
圖2|阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)團隊自主研發(fā)的可編程網(wǎng)關(guān)軟硬件體系
今年阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)團隊和網(wǎng)絡(luò)產(chǎn)品團隊(洛神云網(wǎng)絡(luò))共同合作的“Sailfish: Accelerating Cloud-Scale Multi-Tenant Multi-Service Gateways with Programmable Switches”被SIGCOMM21錄取,繼續(xù)著阿里在可編程網(wǎng)絡(luò)應(yīng)用方面的領(lǐng)軍地位。這個內(nèi)部代號為XGW (eXtendable GateWay) 的云網(wǎng)關(guān)系統(tǒng)是利用SNA這樣的平臺來替代CPU,提高轉(zhuǎn)發(fā)性能的同時減小部署成本的典范。 在阿里云網(wǎng)絡(luò)技術(shù)和產(chǎn)品同學(xué)的共同努力下,XGW已經(jīng)實現(xiàn)了超大規(guī)模部署,為億萬阿里云用戶提供了高性能,高質(zhì)量的云網(wǎng)絡(luò)服務(wù)。
03、XLINK:阿里巴巴主導(dǎo)的多路徑QUIC方案
除了云網(wǎng)絡(luò)領(lǐng)域,今年阿里巴巴也在移動網(wǎng)絡(luò)傳輸領(lǐng)域發(fā)出了“時代最強音”。阿里巴巴在IETF QUIC工作組提出自己的多路徑草案并且廣受關(guān)注之后,由達摩院XG實驗室、手淘淘系技術(shù)、阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)團隊共同合作研發(fā)的XLINK(“XLINK: QoE-Driven Multi-Path QUIC Transport in Large-scale Video Services”)也被SIGCOMM21正式接收。
圖3|XLINK的整體系統(tǒng)架構(gòu)
QUIC技術(shù)是由Google提出, 并于2017年在SIGCOMM會議上發(fā)表了QUIC相關(guān)論文, 引起了業(yè)界的巨大反響, 今年IETF QUIC 1.0標(biāo)準(zhǔn)工作正式完成, 下一代HTTP協(xié)議HTTP3正是基于QUIC來實現(xiàn)的??梢哉f, QUIC是目前移動互聯(lián)網(wǎng)中最核心和關(guān)鍵的技術(shù), 現(xiàn)如今, 超過50%的Chrome瀏覽器流量和75%的Facebook流量都在使用QUIC進行傳輸。 經(jīng)過過去幾年的不懈努力, 阿里巴巴從QUIC技術(shù)的追隨者快速成長為QUIC技術(shù)的創(chuàng)新者, 并在多路徑QUIC技術(shù)上取得了突破, XLINK相關(guān)論文已經(jīng)被頂級學(xué)術(shù)會議SIGCOMM 2021正式接收, 這也是SIGCOMM會議歷史上第一篇關(guān)于多路徑QUIC的文章。
XLINK已經(jīng)集成在手淘完成了大規(guī)模測試, 測試結(jié)果表明, XLINK在弱網(wǎng)下使用可以實現(xiàn)短視頻下載時間降低50%, 首幀加載時間降低32%, 視頻卡頓率降低66%, 額外的流量成本降低85%。此外, 在高鐵上, XLINK的用戶可以同時連接高鐵WiFi與手機LTE, 在高速移動的情況下仍然保持流暢的視頻觀看體驗。另外,阿里巴巴也即將開源XLINK的整體架構(gòu)和協(xié)議,將著力與整個業(yè)界一同打造多路徑QUIC協(xié)議,為消費者提供更好的體驗。
俗話說“十全十美”,2021年對于阿里網(wǎng)絡(luò)技術(shù)人來說也是一個圓滿的一年。從2019開始,截止目前,阿里網(wǎng)絡(luò)技術(shù)已經(jīng)有10篇SIGCOMM論文被錄取。網(wǎng)絡(luò)領(lǐng)域眾多國際專家紛紛被阿里論文“圈粉”,因為 不但有創(chuàng)新大膽超前的思維,更重要的是 阿里堅持技術(shù)創(chuàng)新,把技術(shù)與實際應(yīng)用場景相結(jié)合,讓技術(shù)“走出”實驗室,實現(xiàn)“技術(shù)普惠”。
除了SIGCOMM,今年阿里云基礎(chǔ)設(shè)施網(wǎng)也在系統(tǒng)領(lǐng)域頂級會議USENIX ATC發(fā)表了論文“Hashing Linearity Enables Relative Path Control in Data Centers”來介紹已經(jīng)在阿里網(wǎng)絡(luò)自研交換機部署的交換芯片hash算法特性分析,以及DCMR多路徑故障恢復(fù)的方法,這也同樣是阿里網(wǎng)絡(luò)技術(shù)創(chuàng)新和落地相融合的代言。