騰訊云正在自研全新高性能傳輸協(xié)議HARP:支持10000+節(jié)點(diǎn)大規(guī)模組網(wǎng)

來(lái)源:IT之家
作者:瀟公子
時(shí)間:2022-12-22
2244
在常見(jiàn)的TCPIP協(xié)議、RoCE協(xié)議之外,騰訊云正在自研一套全新的高性能傳輸協(xié)議HARP。借助這套協(xié)議,數(shù)據(jù)中心內(nèi)部可以輕松支持10000+節(jié)點(diǎn)的大規(guī)模組網(wǎng),以及微秒級(jí)“復(fù)活”故障網(wǎng)絡(luò),實(shí)現(xiàn)0斷鏈。

IT之家 12月21日消息,在常見(jiàn)的TCP/IP協(xié)議、RoCE協(xié)議之外,騰訊云正在自研一套全新的高性能傳輸協(xié)議HARP。借助這套協(xié)議,數(shù)據(jù)中心內(nèi)部可以輕松支持10000+節(jié)點(diǎn)的大規(guī)模組網(wǎng),以及微秒級(jí)“復(fù)活”故障網(wǎng)絡(luò),實(shí)現(xiàn)0斷鏈。

HARP是一個(gè)完全自研的數(shù)據(jù)中心高性能傳輸協(xié)議。在保證端到端數(shù)據(jù)報(bào)文可靠傳輸?shù)耐瑫r(shí),HARP可以為上層應(yīng)用提供高可用、高可擴(kuò)展、高性能的網(wǎng)絡(luò)傳輸服務(wù)。

市面上已經(jīng)有各種各樣的網(wǎng)絡(luò)傳輸協(xié)議,騰訊云為什么從0到1開(kāi)始自研新的傳輸協(xié)議呢?主要原因是,隨著應(yīng)用規(guī)模和需求的不斷發(fā)展,數(shù)據(jù)中心網(wǎng)絡(luò)的可靠性和性能面臨著巨大的挑戰(zhàn),之前的協(xié)議漸漸無(wú)法滿足現(xiàn)有業(yè)務(wù)的發(fā)展。

首先,可靠性上,數(shù)據(jù)中心內(nèi)部的交換機(jī)不可避免地會(huì)出現(xiàn)亞健康狀況,這種狀況輕則使得業(yè)務(wù)的響應(yīng)延時(shí)增加,重則導(dǎo)致業(yè)務(wù)超時(shí)斷鏈。其次,性能上,帶寬敏感型應(yīng)用、時(shí)延敏感的應(yīng)用與日俱增,而且數(shù)據(jù)中心應(yīng)用的部署規(guī)模越來(lái)越大,集合通信場(chǎng)景下往往會(huì)產(chǎn)生大量的并發(fā)的數(shù)據(jù)傳輸,這對(duì)現(xiàn)有網(wǎng)絡(luò)傳輸協(xié)議的可擴(kuò)展性提出了更大的要求。

因此,騰訊需要重新設(shè)計(jì)一套新的傳輸協(xié)議,既能滿足上層應(yīng)用對(duì)于高可用網(wǎng)絡(luò)傳輸?shù)囊?,又能提供高帶寬、低時(shí)延的數(shù)據(jù)傳輸服務(wù),還能保持在大規(guī)模部署下的網(wǎng)絡(luò)性能。

HARP主要有三高特性:

“高可用”:通過(guò)多路徑并行傳輸及實(shí)時(shí)的鏈路檢測(cè),微秒級(jí)切換故障鏈路,使得網(wǎng)絡(luò)發(fā)生故障時(shí)上層業(yè)務(wù)完全無(wú)感知,沒(méi)有明顯的性能抖動(dòng)。

“高可擴(kuò)展性”:通過(guò)共享連接的設(shè)計(jì)和協(xié)議本身的優(yōu)化,使得大規(guī)模組網(wǎng)狀況下依然維持著極低的硬件資源消耗,輕松支持1w+節(jié)點(diǎn)組網(wǎng)下節(jié)點(diǎn)間通信性能無(wú)明顯下跌,大大優(yōu)于傳統(tǒng)ROCE網(wǎng)絡(luò)的組網(wǎng)能力。

“高性能”:自研擁塞控制算法,對(duì)網(wǎng)絡(luò)能力無(wú)明顯依賴的前提下,實(shí)現(xiàn)各種負(fù)載時(shí)都能獲得極高的傳輸帶寬和穩(wěn)定的時(shí)延(包括平均時(shí)延和長(zhǎng)尾時(shí)延)。

技術(shù)上如何實(shí)現(xiàn)的

1、粒度可配置的共享連接,最大支持10000+節(jié)點(diǎn)組網(wǎng)

為了滿足多種業(yè)務(wù)環(huán)境的使用需求(裸金屬,VM,CBS等)和大規(guī)模組網(wǎng)要求,HARP支持裸連接、VM級(jí)共享、主機(jī)級(jí)共享等粒度的連接模式。通過(guò)共享連接,HARP可以大幅減少連接數(shù)量,降低硬件實(shí)現(xiàn)的資源消耗,實(shí)現(xiàn)高度的可擴(kuò)展性,輕松支持10000+級(jí)節(jié)點(diǎn)的大規(guī)模組網(wǎng)。

2、軟硬件事務(wù)分離,提供200Gbps最高性能輸出

HARP采用軟硬件分層的事務(wù)層和可靠傳輸層設(shè)計(jì),分工明確:硬件負(fù)責(zé)需要高效和可靠傳輸?shù)膱?bào)文級(jí)事務(wù);軟件部分則提供高度靈活、貼合業(yè)務(wù)特性需求的消息處理,而不占用有限的硬件資源。

a19286ff-c814-4a01-8e7c-30027731783b.webp.jpg

最終,HARP可以支持在10000+節(jié)點(diǎn)的網(wǎng)絡(luò)規(guī)模的業(yè)務(wù)中,提供200Gbps的最高性能輸出,對(duì)于AI訓(xùn)練、鍵值存儲(chǔ)、分布式大數(shù)據(jù)應(yīng)用等場(chǎng)景具有獨(dú)特價(jià)值。

3、自研擁塞控制算法,讓消息完成時(shí)間中位數(shù)降低35%

HARP采用自研的擁塞控制算法PEAD,精確地感知網(wǎng)絡(luò)擁塞,在維持高吞吐的同時(shí),保證網(wǎng)絡(luò)流的通暢。相較于TCP,HARP消息完成時(shí)間的中位數(shù)降低了35%,同時(shí)保證99%數(shù)據(jù)包的網(wǎng)絡(luò)排隊(duì)時(shí)延降低90%。

4、確定性多路徑傳輸、實(shí)現(xiàn)微秒級(jí)路徑切換

騰訊云HARP協(xié)議吸收包括TCP和UDP的優(yōu)勢(shì),通過(guò)自研的報(bào)文編號(hào)方案追蹤每個(gè)報(bào)文的發(fā)送和接收狀態(tài),HARP以極低開(kāi)銷支持亂序接收和選擇性重傳,保證了報(bào)文的可靠傳輸。

a520bfbd-04c7-4e3f-b72b-53799310043c.webp.jpg

同時(shí),HARP通過(guò)確定性多路徑傳輸和微秒級(jí)路徑切換,為上層應(yīng)用提供高可用網(wǎng)絡(luò)服務(wù)。

HARP在每個(gè)連接內(nèi)采用多路徑傳輸,每條路徑有獨(dú)立的擁塞探測(cè)能力?;谧匝袚砣刂扑惴▋?yōu)良的網(wǎng)絡(luò)控制和感知能力,HARP的路徑管理模塊會(huì)根據(jù)路徑的擁塞情況進(jìn)行調(diào)度,快速可靠地檢測(cè)到路徑故障,并在100微秒時(shí)間內(nèi)重新探測(cè)一條新的可用路徑,保證在單個(gè)交換機(jī)故障時(shí)的斷鏈概率為0。相比起TCP遭遇故障的典型重連恢復(fù)時(shí)間(約為1s),HARP減少了99.9%。

IT之家了解到,HARP最初是面向存儲(chǔ)與高性能計(jì)算的場(chǎng)景而設(shè)計(jì),目前也已經(jīng)落地在騰訊的云硬盤(CBS)與彈性RDMA(EFI)業(yè)務(wù)中。作為一個(gè)高性能的通信底座,HARP可以被應(yīng)用于數(shù)據(jù)中心對(duì)網(wǎng)絡(luò)性能要求較高的業(yè)務(wù)中,比如AI訓(xùn)練、鍵值存儲(chǔ)、分布式大數(shù)據(jù)應(yīng)用等。

當(dāng)前騰訊云的工程師還正在不斷地完善其高性能通信庫(kù),包括使用Socket、IB Verbs、libfabric、UCX等通信接口接入HARP傳輸協(xié)議,從而不斷擴(kuò)大HARP的生態(tài)。

立即登錄,閱讀全文
原文鏈接:點(diǎn)擊前往 >
版權(quán)說(shuō)明:本文內(nèi)容來(lái)自于IT之家,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
掃碼關(guān)注
獲取更多出海資訊的相關(guān)信息
優(yōu)質(zhì)服務(wù)商推薦
更多
個(gè)人VIP