云計(jì)算時(shí)代,大量計(jì)算、存儲(chǔ)資源在服務(wù)器之間橫向流動(dòng)。承擔(dān)服務(wù)器與服務(wù)器數(shù)據(jù)傳輸工作的交換機(jī),自然成了數(shù)據(jù)中心的“神經(jīng)樞紐”。
等等,這么說(shuō),那萬(wàn)一交換機(jī)出故障,數(shù)據(jù)中心內(nèi)部豈不是“斷網(wǎng)”了嗎?服務(wù)器和服務(wù)器無(wú)法對(duì)話,上層業(yè)務(wù)輕則響應(yīng)變慢,重則中斷。
今天,就跟大家揭秘一下,在單個(gè)交換機(jī)故障時(shí),騰訊云的新一代高性能網(wǎng)絡(luò),可以在100微秒內(nèi)找到新的通路,實(shí)現(xiàn)0斷鏈,從而保證上層業(yè)務(wù)不受影響。
這背后的武器,就是騰訊云自研高性能網(wǎng)絡(luò)協(xié)議——HARP(Highly Available and Reliable Protocol)。
確定性多路徑傳輸、微秒級(jí)路徑切換
數(shù)據(jù)中心網(wǎng)絡(luò)傳統(tǒng)采用TCP傳輸協(xié)議,雖然能保證穩(wěn)定可靠地傳輸數(shù)據(jù),但延時(shí)大、占用系統(tǒng)資源高,且采用單路徑路由,對(duì)網(wǎng)絡(luò)故障的容忍度低。
為此,行業(yè)紛紛基于UDP協(xié)議展開(kāi)新型網(wǎng)絡(luò)協(xié)議的探索。UDP協(xié)議雖然速度快,但可能產(chǎn)生“丟包”,不能確保數(shù)據(jù)百分百送達(dá)。
騰訊云HARP協(xié)議是如何實(shí)現(xiàn)取長(zhǎng)補(bǔ)短、青出于藍(lán)的?
通過(guò)自研的報(bào)文編號(hào)方案追蹤每個(gè)報(bào)文的發(fā)送和接收狀態(tài),HARP以極低開(kāi)銷支持亂序接收和選擇性重傳,保證了報(bào)文的可靠傳輸。
同時(shí),HARP通過(guò)確定性多路徑傳輸和微秒級(jí)路徑切換,為上層應(yīng)用提供高可用網(wǎng)絡(luò)服務(wù)。
HARP在每個(gè)連接內(nèi)采用多路徑傳輸,每條路徑有獨(dú)立的擁塞探測(cè)能力。
基于自研擁塞控制算法優(yōu)良的網(wǎng)絡(luò)控制和感知能力,HARP的路徑管理模塊會(huì)根據(jù)路徑的擁塞情況進(jìn)行調(diào)度,快速可靠地檢測(cè)到路徑故障,并在100微秒時(shí)間內(nèi)重新探測(cè)一條新的可用路徑,保證在單個(gè)交換機(jī)故障時(shí)的斷鏈概率為0。
相比起TCP遭遇故障的典型重連恢復(fù)時(shí)間(約為1s),HARP減少了99.9%。
10000+節(jié)點(diǎn)、200Gbps帶寬
“高可用”只是解決了服務(wù)可靠性的問(wèn)題。比如騰訊云的云硬盤服務(wù)采用HARP后,即使網(wǎng)絡(luò)發(fā)生故障,上層業(yè)務(wù)仍然可用并且性能抖動(dòng)小。
同時(shí),HARP也通過(guò)共享連接、軟硬件分層、自研擁塞控制算法等技術(shù)設(shè)計(jì),應(yīng)對(duì)數(shù)據(jù)中心應(yīng)用規(guī)模和需求不斷發(fā)展帶來(lái)的挑戰(zhàn)。
·高可擴(kuò)展
HARP通過(guò)共享連接大幅減少連接數(shù)量,實(shí)現(xiàn)高度的可擴(kuò)展性,輕松支持10000+節(jié)點(diǎn)的大規(guī)模組網(wǎng)。
具體方式上,HARP支持裸連接、云服務(wù)器級(jí)共享、物理服務(wù)器級(jí)共享等粒度的連接模式,用以滿足裸金屬云服務(wù)器、云服務(wù)器、云硬盤、高性能計(jì)算(HPC)等多種業(yè)務(wù)環(huán)境的使用需求和大規(guī)模組網(wǎng)要求。
·高帶寬
HARP采用軟硬件分層的事務(wù)層和可靠傳輸層設(shè)計(jì),分工明確:硬件負(fù)責(zé)需要高效和可靠傳輸?shù)膱?bào)文級(jí)事務(wù);軟件部分則提供高度靈活、貼合業(yè)務(wù)特性需求的消息處理,而不占用昂貴的硬件資源。
最終,HARP可以支持在10K+節(jié)點(diǎn)的網(wǎng)絡(luò)規(guī)模的業(yè)務(wù)中,提供200Gbps的最高性能輸出,對(duì)于AI訓(xùn)練、鍵值存儲(chǔ)、分布式大數(shù)據(jù)應(yīng)用等場(chǎng)景具有獨(dú)特價(jià)值。
·低延時(shí)
HARP采用自研的擁塞控制算法PEAD,精確地感知網(wǎng)絡(luò)擁塞,在維持高吞吐的同時(shí),保證網(wǎng)絡(luò)流的通暢。
相較于TCP,HARP消息完成時(shí)間的中位數(shù)降低了35%,同時(shí)保證99%數(shù)據(jù)包的網(wǎng)絡(luò)排隊(duì)時(shí)延降低90%。
目前,HARP已在騰訊云的塊存儲(chǔ)等具有核心需求的場(chǎng)景上落地,并將逐步覆蓋其他業(yè)務(wù)。未來(lái),HARP結(jié)合騰訊自研銀杉智能網(wǎng)卡及玄靈芯片的硬件能力,將打造成為騰訊云的數(shù)據(jù)中心高性能傳輸?shù)鬃?/p>