高可用這個問題,加機(jī)器就能解決?

來源:騰訊云開發(fā)者
作者:騰訊云開發(fā)者
時間:2024-11-25
2664
互聯(lián)網(wǎng)服務(wù)的可用性問題是困擾企業(yè)IT人員的達(dá)摩克利斯之劍:防于未然,體現(xiàn)不出價值。已然發(fā)生,又面臨P0危機(jī)。就更別提穩(wěn)定性建設(shè)背后顯性的IT預(yù)算問題與隱性的人員成本問題。

目錄

1 互聯(lián)網(wǎng)服務(wù)的高可用之殤

2 高可用問題的解法

3 萬事不決加機(jī)器!但是性價比那種!

互聯(lián)網(wǎng)服務(wù)的可用性問題是困擾企業(yè)IT人員的達(dá)摩克利斯之劍:防于未然,體現(xiàn)不出價值。已然發(fā)生,又面臨P0危機(jī)。就更別提穩(wěn)定性建設(shè)背后顯性的IT預(yù)算問題與隱性的人員成本問題。

雖有一套萬事不決加機(jī)器的法門,卻仍有絲絲顧慮存在,這機(jī)器保不保真?頂不頂?貴不貴?

01

互聯(lián)網(wǎng)服務(wù)的高可用之殤

墨菲定律有言,任何可能出錯的事情最終都會出錯。

03377E41-FC4D-41BF-BE36-39251ED95E20.png

互聯(lián)網(wǎng)后臺服務(wù)的宿命就是在某一天掛掉,然后等著被修復(fù)。

掛掉的原因可能是某地域IDC冷凍系統(tǒng)故障,升級工具Bug導(dǎo)致服務(wù)器被誤下線,K8s版本升級導(dǎo)致容器全部宕機(jī),機(jī)房被雷劈了、光纜被鯊魚咬斷了等等千奇百怪的理由。

修復(fù)時長可能需要半小時,一小時,兩小時,甚至半天、一天,然后研發(fā)團(tuán)隊全員喜提草臺班子稱號,被互聯(lián)網(wǎng)記錄在案,流傳下去。

沒有人能構(gòu)建出永不宕機(jī)的系統(tǒng),因為墨菲定律之所以為定律,就是問題一定會出現(xiàn)。更別提互聯(lián)網(wǎng)系統(tǒng)的另一條鐵律——熵增定律,在一個孤立的系統(tǒng)里,如果沒有外力做功,其總混亂度會不斷增大,最后達(dá)到一個無序狀態(tài)。

再加上,只要是系統(tǒng),就需要人維護(hù)。而當(dāng)維護(hù)的人開始流動,老舊系統(tǒng)的維護(hù)就更像十級大風(fēng)下的摩天大樓,搖搖欲墜。

6D8B351C-ABF6-464D-989E-59A8DFE09180.png

02

高可用問題的解法

騰訊前CTO Tony張志東曾經(jīng)對海量互聯(lián)網(wǎng)服務(wù)下過一個定義:

在線超過千萬;

索引超過百億;

數(shù)據(jù)超過百P。

按照這個定義去檢測,在這個擁有著14億人口、春晚紅包發(fā)到宕機(jī)、動輒電商大促的試驗田里,峰值交易量超50萬筆、數(shù)據(jù)總量近千PB的流量將成為新常態(tài),這對技術(shù)能力帶來的壓榨是全方位的。

這樣的海量系統(tǒng)背后,低成本的平衡擴(kuò)展性需求成為了高優(yōu)先級的目標(biāo)。

不同量級的服務(wù),需要不同的系統(tǒng)架構(gòu)進(jìn)行應(yīng)對,同時每增加一個量級,都會有無數(shù)的需要優(yōu)化的地方。

高可用系統(tǒng)的架構(gòu)設(shè)計,需要有一套比較科學(xué)的工程管理套路。要從產(chǎn)品、開發(fā)、運(yùn)維、基建等全方位去考量和設(shè)計。高可用系統(tǒng)的架構(gòu)設(shè)計思想包括但不限于:

做好研發(fā)規(guī)范。系統(tǒng)都是研發(fā)人員設(shè)計和編碼寫出來的,因此首先要對研發(fā)層面有一個規(guī)范和標(biāo)準(zhǔn)。

做好容量規(guī)劃和評估。主要是讓開發(fā)人員對系統(tǒng)要抗住的量級有一個基本認(rèn)知,方便進(jìn)行合理的架構(gòu)設(shè)計和演進(jìn)。

做好服務(wù)層面的高可用。主要是負(fù)載均衡、彈性擴(kuò)縮容、異步解耦、故障容錯、過載保護(hù)等。

做好存儲層面的高可用。主要是冗余備份(熱備,冷備)、失效轉(zhuǎn)移(確認(rèn),轉(zhuǎn)移,恢復(fù))等。

做好運(yùn)維層面的高可用。主要是發(fā)布測試、監(jiān)控告警、容災(zāi)、故障演練等。

做好產(chǎn)品層面的高可用。主要是兜底策略等。

做好應(yīng)急預(yù)案。主要是要思考在出現(xiàn)問題后怎樣快速恢復(fù),不至于讓我們的異常事態(tài)擴(kuò)大。

但并不是所有的企業(yè)都面臨跟騰訊一樣的用戶體量考驗,不同規(guī)模的企業(yè)和行業(yè)對軟件架構(gòu)健壯性的要求、自身系統(tǒng)運(yùn)維能力都存在較大差異,且在IT預(yù)算支出日漸吃緊的當(dāng)下對成本的顧慮,導(dǎo)致了很難用一套萬金油方案解決各行業(yè)的服務(wù)問題。

怎么辦?

03

萬事不決加機(jī)器!但是性價比那種!

正如后臺服務(wù)架構(gòu)遇到問題,零幀起手先上一套微服務(wù)架構(gòu)一樣。

在互聯(lián)網(wǎng)后臺架構(gòu)中,提升高可用能力的一個零幀起手的辦法就是加機(jī)器。

可別小瞧了這簡簡單單的三個字,互聯(lián)網(wǎng)系統(tǒng)的性能瓶頸,要么在于機(jī)器資源沒有得到充分的利用,要么在于沒有充分的機(jī)器資源。

而在互聯(lián)網(wǎng)服務(wù)中,對于那些可并行的計算,增加機(jī)器節(jié)點(diǎn)可以加快單次請求的速度,提高性能。對于利用了虛擬化和容器化的云上服務(wù),它的機(jī)器資源利用度更高,系統(tǒng)的成本自然也就更低。

通過增加服務(wù)器節(jié)點(diǎn),可以實現(xiàn)負(fù)載均衡和高可用性,確保在部分服務(wù)器發(fā)生故障時,系統(tǒng)仍然能夠正常運(yùn)行。

所以,你需要的,是一款真正具備高性能,且性價比極高的云服務(wù)器——SA5。

SA5的核心能力,總結(jié)下來主要有以下幾項:

支撐高并發(fā)場景的高性能算力

騰訊云SA核心數(shù)翻倍,單實例提升至512vCPU的規(guī)格。這背后是第四代AMD EPYC處理器的澎湃動力,以AMD EPYC 9754(Bergamo)為首,構(gòu)成了SA5強(qiáng)大的計算心臟。整機(jī)性能相比云服務(wù)器SA3實例提升120%以上。

極致的性價比

在整機(jī)性能提升如此之大的同時,SA5通過技術(shù)上的探索突破,充分釋放技術(shù)紅利,整機(jī)性價比相比業(yè)內(nèi)通用計算方案提升30%以上!

超強(qiáng)存儲、網(wǎng)絡(luò)性能

具備低時延、高性能、高可靠的存儲能力。IOPS達(dá)100萬,低至40us存儲時延,在大型數(shù)據(jù)庫等IO密集型業(yè)務(wù)場景表現(xiàn)優(yōu)異。

SA5采用2 100G高帶寬網(wǎng)絡(luò)架構(gòu),整機(jī)可提供4500萬PPS(包/秒)、時延低至5us,在視頻直播等高網(wǎng)絡(luò)收發(fā)包場景,帶來超低時延體驗。

訪存延時減半

得益于高密度的服務(wù)器設(shè)計,星星海SA5將訪存延時縮減約50%,所有客戶應(yīng)用均可部署在一致性訪存環(huán)境中。

虛擬化損耗,零!

基于騰訊云自研銀杉DPU,將虛擬化損耗降到0,云服務(wù)器的全部算力都能為用戶所用。

在KVM開源貢獻(xiàn)榜上,騰訊云也是中國唯一連續(xù)七年入圍的云廠商,實力無需多言。

騰訊云SA5支撐了剛剛過去的電商大促的算力高峰,故障0發(fā)生;同時SA5也被大規(guī)模運(yùn)用在騰訊內(nèi)部自研業(yè)務(wù),通過其極致性價比服務(wù)內(nèi)部業(yè)務(wù)日常運(yùn)營,為業(yè)務(wù)創(chuàng)造更多價值。

如果你遇到了加機(jī)器才能解決的問題,不妨試試SA5。

如果你遇到了機(jī)器性能、成本方面的顧慮,不妨試試SA5。

立即登錄,閱讀全文
原文鏈接:點(diǎn)擊前往 >
文章來源:騰訊云開發(fā)者
版權(quán)說明:本文內(nèi)容來自于騰訊云開發(fā)者,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點(diǎn),不代表快出海對觀點(diǎn)贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多