微秒級“復(fù)活”網(wǎng)絡(luò):揭秘騰訊云新一代HARP協(xié)議

來源:騰訊云
作者:騰訊云
時間:2023-03-24
1805
云計算時代,大量計算、存儲資源在服務(wù)器之間橫向流動。承擔服務(wù)器與服務(wù)器數(shù)據(jù)傳輸工作的交換機,自然成了數(shù)據(jù)中心的“神經(jīng)樞紐”。

云計算時代,大量計算、存儲資源在服務(wù)器之間橫向流動。承擔服務(wù)器與服務(wù)器數(shù)據(jù)傳輸工作的交換機,自然成了數(shù)據(jù)中心的“神經(jīng)樞紐”。

等等,這么說,那萬一交換機出故障,數(shù)據(jù)中心內(nèi)部豈不是“斷網(wǎng)”了嗎?服務(wù)器和服務(wù)器無法對話,上層業(yè)務(wù)輕則響應(yīng)變慢,重則中斷。

今天,就跟大家揭秘一下,在單個交換機故障時,騰訊云的新一代高性能網(wǎng)絡(luò),可以在100微秒內(nèi)找到新的通路,實現(xiàn)0斷鏈,從而保證上層業(yè)務(wù)不受影響。

這背后的武器,就是騰訊云自研高性能網(wǎng)絡(luò)協(xié)議——HARP(Highly Available and Reliable Protocol)。

確定性多路徑傳輸、微秒級路徑切換

數(shù)據(jù)中心網(wǎng)絡(luò)傳統(tǒng)采用TCP傳輸協(xié)議,雖然能保證穩(wěn)定可靠地傳輸數(shù)據(jù),但延時大、占用系統(tǒng)資源高,且采用單路徑路由,對網(wǎng)絡(luò)故障的容忍度低。

為此,行業(yè)紛紛基于UDP協(xié)議展開新型網(wǎng)絡(luò)協(xié)議的探索。UDP協(xié)議雖然速度快,但可能產(chǎn)生“丟包”,不能確保數(shù)據(jù)百分百送達。

騰訊云HARP協(xié)議是如何實現(xiàn)取長補短、青出于藍的?

通過自研的報文編號方案追蹤每個報文的發(fā)送和接收狀態(tài),HARP以極低開銷支持亂序接收和選擇性重傳,保證了報文的可靠傳輸。

同時,HARP通過確定性多路徑傳輸和微秒級路徑切換,為上層應(yīng)用提供高可用網(wǎng)絡(luò)服務(wù)。

HARP在每個連接內(nèi)采用多路徑傳輸,每條路徑有獨立的擁塞探測能力。

基于自研擁塞控制算法優(yōu)良的網(wǎng)絡(luò)控制和感知能力,HARP的路徑管理模塊會根據(jù)路徑的擁塞情況進行調(diào)度,快速可靠地檢測到路徑故障,并在100微秒時間內(nèi)重新探測一條新的可用路徑,保證在單個交換機故障時的斷鏈概率為0。

相比起TCP遭遇故障的典型重連恢復(fù)時間(約為1s),HARP減少了99.9%。

640.jpg

10000+節(jié)點、200Gbps帶寬

“高可用”只是解決了服務(wù)可靠性的問題。比如騰訊云的云硬盤服務(wù)采用HARP后,即使網(wǎng)絡(luò)發(fā)生故障,上層業(yè)務(wù)仍然可用并且性能抖動小。

同時,HARP也通過共享連接、軟硬件分層、自研擁塞控制算法等技術(shù)設(shè)計,應(yīng)對數(shù)據(jù)中心應(yīng)用規(guī)模和需求不斷發(fā)展帶來的挑戰(zhàn)。

·高可擴展

HARP通過共享連接大幅減少連接數(shù)量,實現(xiàn)高度的可擴展性,輕松支持10000+節(jié)點的大規(guī)模組網(wǎng)。

具體方式上,HARP支持裸連接、云服務(wù)器級共享、物理服務(wù)器級共享等粒度的連接模式,用以滿足裸金屬云服務(wù)器、云服務(wù)器、云硬盤、高性能計算(HPC)等多種業(yè)務(wù)環(huán)境的使用需求和大規(guī)模組網(wǎng)要求。

·高帶寬

HARP采用軟硬件分層的事務(wù)層和可靠傳輸層設(shè)計,分工明確:硬件負責需要高效和可靠傳輸?shù)膱笪募壥聞?wù);軟件部分則提供高度靈活、貼合業(yè)務(wù)特性需求的消息處理,而不占用昂貴的硬件資源。

最終,HARP可以支持在10K+節(jié)點的網(wǎng)絡(luò)規(guī)模的業(yè)務(wù)中,提供200Gbps的最高性能輸出,對于AI訓練、鍵值存儲、分布式大數(shù)據(jù)應(yīng)用等場景具有獨特價值。

640.png

·低延時

HARP采用自研的擁塞控制算法PEAD,精確地感知網(wǎng)絡(luò)擁塞,在維持高吞吐的同時,保證網(wǎng)絡(luò)流的通暢。

相較于TCP,HARP消息完成時間的中位數(shù)降低了35%,同時保證99%數(shù)據(jù)包的網(wǎng)絡(luò)排隊時延降低90%。

640 (1).jpg

目前,HARP已在騰訊云的塊存儲等具有核心需求的場景上落地,并將逐步覆蓋其他業(yè)務(wù)。未來,HARP結(jié)合騰訊自研銀杉智能網(wǎng)卡及玄靈芯片的硬件能力,將打造成為騰訊云的數(shù)據(jù)中心高性能傳輸?shù)鬃?/p>

立即登錄,閱讀全文
原文鏈接:點擊前往 >
文章來源:騰訊云
版權(quán)說明:本文內(nèi)容來自于騰訊云,本站不擁有所有權(quán),不承擔相關(guān)法律責任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多