微秒級(jí)“復(fù)活”網(wǎng)絡(luò):揭秘騰訊云新一代HARP協(xié)議

來(lái)源:騰訊云
作者:騰訊云
時(shí)間:2023-03-24
1890
云計(jì)算時(shí)代,大量計(jì)算、存儲(chǔ)資源在服務(wù)器之間橫向流動(dòng)。承擔(dān)服務(wù)器與服務(wù)器數(shù)據(jù)傳輸工作的交換機(jī),自然成了數(shù)據(jù)中心的“神經(jīng)樞紐”。

云計(jì)算時(shí)代,大量計(jì)算、存儲(chǔ)資源在服務(wù)器之間橫向流動(dòng)。承擔(dān)服務(wù)器與服務(wù)器數(shù)據(jù)傳輸工作的交換機(jī),自然成了數(shù)據(jù)中心的“神經(jīng)樞紐”。

等等,這么說(shuō),那萬(wàn)一交換機(jī)出故障,數(shù)據(jù)中心內(nèi)部豈不是“斷網(wǎng)”了嗎?服務(wù)器和服務(wù)器無(wú)法對(duì)話,上層業(yè)務(wù)輕則響應(yīng)變慢,重則中斷。

今天,就跟大家揭秘一下,在單個(gè)交換機(jī)故障時(shí),騰訊云的新一代高性能網(wǎng)絡(luò),可以在100微秒內(nèi)找到新的通路,實(shí)現(xiàn)0斷鏈,從而保證上層業(yè)務(wù)不受影響。

這背后的武器,就是騰訊云自研高性能網(wǎng)絡(luò)協(xié)議——HARP(Highly Available and Reliable Protocol)。

確定性多路徑傳輸、微秒級(jí)路徑切換

數(shù)據(jù)中心網(wǎng)絡(luò)傳統(tǒng)采用TCP傳輸協(xié)議,雖然能保證穩(wěn)定可靠地傳輸數(shù)據(jù),但延時(shí)大、占用系統(tǒng)資源高,且采用單路徑路由,對(duì)網(wǎng)絡(luò)故障的容忍度低。

為此,行業(yè)紛紛基于UDP協(xié)議展開(kāi)新型網(wǎng)絡(luò)協(xié)議的探索。UDP協(xié)議雖然速度快,但可能產(chǎn)生“丟包”,不能確保數(shù)據(jù)百分百送達(dá)。

騰訊云HARP協(xié)議是如何實(shí)現(xiàn)取長(zhǎng)補(bǔ)短、青出于藍(lán)的?

通過(guò)自研的報(bào)文編號(hào)方案追蹤每個(gè)報(bào)文的發(fā)送和接收狀態(tài),HARP以極低開(kāi)銷支持亂序接收和選擇性重傳,保證了報(bào)文的可靠傳輸。

同時(shí),HARP通過(guò)確定性多路徑傳輸和微秒級(jí)路徑切換,為上層應(yīng)用提供高可用網(wǎng)絡(luò)服務(wù)。

HARP在每個(gè)連接內(nèi)采用多路徑傳輸,每條路徑有獨(dú)立的擁塞探測(cè)能力。

基于自研擁塞控制算法優(yōu)良的網(wǎng)絡(luò)控制和感知能力,HARP的路徑管理模塊會(huì)根據(jù)路徑的擁塞情況進(jìn)行調(diào)度,快速可靠地檢測(cè)到路徑故障,并在100微秒時(shí)間內(nèi)重新探測(cè)一條新的可用路徑,保證在單個(gè)交換機(jī)故障時(shí)的斷鏈概率為0。

相比起TCP遭遇故障的典型重連恢復(fù)時(shí)間(約為1s),HARP減少了99.9%。

640.jpg

10000+節(jié)點(diǎn)、200Gbps帶寬

“高可用”只是解決了服務(wù)可靠性的問(wèn)題。比如騰訊云的云硬盤服務(wù)采用HARP后,即使網(wǎng)絡(luò)發(fā)生故障,上層業(yè)務(wù)仍然可用并且性能抖動(dòng)小。

同時(shí),HARP也通過(guò)共享連接、軟硬件分層、自研擁塞控制算法等技術(shù)設(shè)計(jì),應(yīng)對(duì)數(shù)據(jù)中心應(yīng)用規(guī)模和需求不斷發(fā)展帶來(lái)的挑戰(zhàn)。

·高可擴(kuò)展

HARP通過(guò)共享連接大幅減少連接數(shù)量,實(shí)現(xiàn)高度的可擴(kuò)展性,輕松支持10000+節(jié)點(diǎn)的大規(guī)模組網(wǎng)。

具體方式上,HARP支持裸連接、云服務(wù)器級(jí)共享、物理服務(wù)器級(jí)共享等粒度的連接模式,用以滿足裸金屬云服務(wù)器、云服務(wù)器、云硬盤、高性能計(jì)算(HPC)等多種業(yè)務(wù)環(huán)境的使用需求和大規(guī)模組網(wǎng)要求。

·高帶寬

HARP采用軟硬件分層的事務(wù)層和可靠傳輸層設(shè)計(jì),分工明確:硬件負(fù)責(zé)需要高效和可靠傳輸?shù)膱?bào)文級(jí)事務(wù);軟件部分則提供高度靈活、貼合業(yè)務(wù)特性需求的消息處理,而不占用昂貴的硬件資源。

最終,HARP可以支持在10K+節(jié)點(diǎn)的網(wǎng)絡(luò)規(guī)模的業(yè)務(wù)中,提供200Gbps的最高性能輸出,對(duì)于AI訓(xùn)練、鍵值存儲(chǔ)、分布式大數(shù)據(jù)應(yīng)用等場(chǎng)景具有獨(dú)特價(jià)值。

640.png

·低延時(shí)

HARP采用自研的擁塞控制算法PEAD,精確地感知網(wǎng)絡(luò)擁塞,在維持高吞吐的同時(shí),保證網(wǎng)絡(luò)流的通暢。

相較于TCP,HARP消息完成時(shí)間的中位數(shù)降低了35%,同時(shí)保證99%數(shù)據(jù)包的網(wǎng)絡(luò)排隊(duì)時(shí)延降低90%。

640 (1).jpg

目前,HARP已在騰訊云的塊存儲(chǔ)等具有核心需求的場(chǎng)景上落地,并將逐步覆蓋其他業(yè)務(wù)。未來(lái),HARP結(jié)合騰訊自研銀杉智能網(wǎng)卡及玄靈芯片的硬件能力,將打造成為騰訊云的數(shù)據(jù)中心高性能傳輸?shù)鬃?/p>

立即登錄,閱讀全文
原文鏈接:點(diǎn)擊前往 >
版權(quán)說(shuō)明:本文內(nèi)容來(lái)自于騰訊云,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
相關(guān)文章
騰訊云數(shù)據(jù)庫(kù)PostgreSQL全面支持PG 17
騰訊云數(shù)據(jù)庫(kù)PostgreSQL全面支持PG 17
即日起,騰訊云PostgreSQL全面支持PostgreSQL 17.0。所有用戶可使用大版本升級(jí)能力升級(jí)至最新的PostgreSQL 17.0進(jìn)行體驗(yàn),也可以在產(chǎn)品購(gòu)買頁(yè)直接購(gòu)買。
騰訊云
云服務(wù)
2024-12-15
高可用這個(gè)問(wèn)題,加機(jī)器就能解決?
高可用這個(gè)問(wèn)題,加機(jī)器就能解決?
互聯(lián)網(wǎng)服務(wù)的可用性問(wèn)題是困擾企業(yè)IT人員的達(dá)摩克利斯之劍:防于未然,體現(xiàn)不出價(jià)值。已然發(fā)生,又面臨P0危機(jī)。就更別提穩(wěn)定性建設(shè)背后顯性的IT預(yù)算問(wèn)題與隱性的人員成本問(wèn)題。
騰訊云
云服務(wù)
2024-11-25
TDSQL TDStore引擎版替換HBase:在歷史庫(kù)場(chǎng)景中的成本與性能優(yōu)勢(shì)
TDSQL TDStore引擎版替換HBase:在歷史庫(kù)場(chǎng)景中的成本與性能優(yōu)勢(shì)
HBase憑借其高可用性、高擴(kuò)展性和強(qiáng)一致性,以及在廉價(jià)PC服務(wù)器上的低部署成本,廣泛應(yīng)用于大規(guī)模數(shù)據(jù)分析。
騰訊云
云服務(wù)
2024-11-04
復(fù)雜查詢性能弱,只讀分析引擎來(lái)幫忙
復(fù)雜查詢性能弱,只讀分析引擎來(lái)幫忙
隨著當(dāng)今業(yè)務(wù)的高速發(fā)展,復(fù)雜多表關(guān)聯(lián)的場(chǎng)景越來(lái)越普遍。但基于行式存儲(chǔ)的數(shù)據(jù)庫(kù)在進(jìn)行復(fù)雜查詢時(shí)性能相對(duì)較弱。
騰訊云
云服務(wù)
2024-11-02
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開(kāi)掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家