高可用這個(gè)問(wèn)題,加機(jī)器就能解決?

來(lái)源:騰訊云開(kāi)發(fā)者
作者:騰訊云開(kāi)發(fā)者
時(shí)間:2024-11-25
2587
互聯(lián)網(wǎng)服務(wù)的可用性問(wèn)題是困擾企業(yè)IT人員的達(dá)摩克利斯之劍:防于未然,體現(xiàn)不出價(jià)值。已然發(fā)生,又面臨P0危機(jī)。就更別提穩(wěn)定性建設(shè)背后顯性的IT預(yù)算問(wèn)題與隱性的人員成本問(wèn)題。

目錄

1 互聯(lián)網(wǎng)服務(wù)的高可用之殤

2 高可用問(wèn)題的解法

3 萬(wàn)事不決加機(jī)器!但是性價(jià)比那種!

互聯(lián)網(wǎng)服務(wù)的可用性問(wèn)題是困擾企業(yè)IT人員的達(dá)摩克利斯之劍:防于未然,體現(xiàn)不出價(jià)值。已然發(fā)生,又面臨P0危機(jī)。就更別提穩(wěn)定性建設(shè)背后顯性的IT預(yù)算問(wèn)題與隱性的人員成本問(wèn)題。

雖有一套萬(wàn)事不決加機(jī)器的法門(mén),卻仍有絲絲顧慮存在,這機(jī)器保不保真?頂不頂?貴不貴?

01

互聯(lián)網(wǎng)服務(wù)的高可用之殤

墨菲定律有言,任何可能出錯(cuò)的事情最終都會(huì)出錯(cuò)。

03377E41-FC4D-41BF-BE36-39251ED95E20.png

互聯(lián)網(wǎng)后臺(tái)服務(wù)的宿命就是在某一天掛掉,然后等著被修復(fù)。

掛掉的原因可能是某地域IDC冷凍系統(tǒng)故障,升級(jí)工具Bug導(dǎo)致服務(wù)器被誤下線,K8s版本升級(jí)導(dǎo)致容器全部宕機(jī),機(jī)房被雷劈了、光纜被鯊魚(yú)咬斷了等等千奇百怪的理由。

修復(fù)時(shí)長(zhǎng)可能需要半小時(shí),一小時(shí),兩小時(shí),甚至半天、一天,然后研發(fā)團(tuán)隊(duì)全員喜提草臺(tái)班子稱號(hào),被互聯(lián)網(wǎng)記錄在案,流傳下去。

沒(méi)有人能構(gòu)建出永不宕機(jī)的系統(tǒng),因?yàn)槟贫芍詾槎?,就是?wèn)題一定會(huì)出現(xiàn)。更別提互聯(lián)網(wǎng)系統(tǒng)的另一條鐵律——熵增定律,在一個(gè)孤立的系統(tǒng)里,如果沒(méi)有外力做功,其總混亂度會(huì)不斷增大,最后達(dá)到一個(gè)無(wú)序狀態(tài)。

再加上,只要是系統(tǒng),就需要人維護(hù)。而當(dāng)維護(hù)的人開(kāi)始流動(dòng),老舊系統(tǒng)的維護(hù)就更像十級(jí)大風(fēng)下的摩天大樓,搖搖欲墜。

6D8B351C-ABF6-464D-989E-59A8DFE09180.png

02

高可用問(wèn)題的解法

騰訊前CTO Tony張志東曾經(jīng)對(duì)海量互聯(lián)網(wǎng)服務(wù)下過(guò)一個(gè)定義:

在線超過(guò)千萬(wàn);

索引超過(guò)百億;

數(shù)據(jù)超過(guò)百P。

按照這個(gè)定義去檢測(cè),在這個(gè)擁有著14億人口、春晚紅包發(fā)到宕機(jī)、動(dòng)輒電商大促的試驗(yàn)田里,峰值交易量超50萬(wàn)筆、數(shù)據(jù)總量近千PB的流量將成為新常態(tài),這對(duì)技術(shù)能力帶來(lái)的壓榨是全方位的。

這樣的海量系統(tǒng)背后,低成本的平衡擴(kuò)展性需求成為了高優(yōu)先級(jí)的目標(biāo)。

不同量級(jí)的服務(wù),需要不同的系統(tǒng)架構(gòu)進(jìn)行應(yīng)對(duì),同時(shí)每增加一個(gè)量級(jí),都會(huì)有無(wú)數(shù)的需要優(yōu)化的地方。

高可用系統(tǒng)的架構(gòu)設(shè)計(jì),需要有一套比較科學(xué)的工程管理套路。要從產(chǎn)品、開(kāi)發(fā)、運(yùn)維、基建等全方位去考量和設(shè)計(jì)。高可用系統(tǒng)的架構(gòu)設(shè)計(jì)思想包括但不限于:

做好研發(fā)規(guī)范。系統(tǒng)都是研發(fā)人員設(shè)計(jì)和編碼寫(xiě)出來(lái)的,因此首先要對(duì)研發(fā)層面有一個(gè)規(guī)范和標(biāo)準(zhǔn)。

做好容量規(guī)劃和評(píng)估。主要是讓開(kāi)發(fā)人員對(duì)系統(tǒng)要抗住的量級(jí)有一個(gè)基本認(rèn)知,方便進(jìn)行合理的架構(gòu)設(shè)計(jì)和演進(jìn)。

做好服務(wù)層面的高可用。主要是負(fù)載均衡、彈性擴(kuò)縮容、異步解耦、故障容錯(cuò)、過(guò)載保護(hù)等。

做好存儲(chǔ)層面的高可用。主要是冗余備份(熱備,冷備)、失效轉(zhuǎn)移(確認(rèn),轉(zhuǎn)移,恢復(fù))等。

做好運(yùn)維層面的高可用。主要是發(fā)布測(cè)試、監(jiān)控告警、容災(zāi)、故障演練等。

做好產(chǎn)品層面的高可用。主要是兜底策略等。

做好應(yīng)急預(yù)案。主要是要思考在出現(xiàn)問(wèn)題后怎樣快速恢復(fù),不至于讓我們的異常事態(tài)擴(kuò)大。

但并不是所有的企業(yè)都面臨跟騰訊一樣的用戶體量考驗(yàn),不同規(guī)模的企業(yè)和行業(yè)對(duì)軟件架構(gòu)健壯性的要求、自身系統(tǒng)運(yùn)維能力都存在較大差異,且在IT預(yù)算支出日漸吃緊的當(dāng)下對(duì)成本的顧慮,導(dǎo)致了很難用一套萬(wàn)金油方案解決各行業(yè)的服務(wù)問(wèn)題。

怎么辦?

03

萬(wàn)事不決加機(jī)器!但是性價(jià)比那種!

正如后臺(tái)服務(wù)架構(gòu)遇到問(wèn)題,零幀起手先上一套微服務(wù)架構(gòu)一樣。

在互聯(lián)網(wǎng)后臺(tái)架構(gòu)中,提升高可用能力的一個(gè)零幀起手的辦法就是加機(jī)器。

可別小瞧了這簡(jiǎn)簡(jiǎn)單單的三個(gè)字,互聯(lián)網(wǎng)系統(tǒng)的性能瓶頸,要么在于機(jī)器資源沒(méi)有得到充分的利用,要么在于沒(méi)有充分的機(jī)器資源。

而在互聯(lián)網(wǎng)服務(wù)中,對(duì)于那些可并行的計(jì)算,增加機(jī)器節(jié)點(diǎn)可以加快單次請(qǐng)求的速度,提高性能。對(duì)于利用了虛擬化和容器化的云上服務(wù),它的機(jī)器資源利用度更高,系統(tǒng)的成本自然也就更低。

通過(guò)增加服務(wù)器節(jié)點(diǎn),可以實(shí)現(xiàn)負(fù)載均衡和高可用性,確保在部分服務(wù)器發(fā)生故障時(shí),系統(tǒng)仍然能夠正常運(yùn)行。

所以,你需要的,是一款真正具備高性能,且性價(jià)比極高的云服務(wù)器——SA5。

SA5的核心能力,總結(jié)下來(lái)主要有以下幾項(xiàng):

支撐高并發(fā)場(chǎng)景的高性能算力

騰訊云SA核心數(shù)翻倍,單實(shí)例提升至512vCPU的規(guī)格。這背后是第四代AMD EPYC處理器的澎湃動(dòng)力,以AMD EPYC 9754(Bergamo)為首,構(gòu)成了SA5強(qiáng)大的計(jì)算心臟。整機(jī)性能相比云服務(wù)器SA3實(shí)例提升120%以上。

極致的性價(jià)比

在整機(jī)性能提升如此之大的同時(shí),SA5通過(guò)技術(shù)上的探索突破,充分釋放技術(shù)紅利,整機(jī)性價(jià)比相比業(yè)內(nèi)通用計(jì)算方案提升30%以上!

超強(qiáng)存儲(chǔ)、網(wǎng)絡(luò)性能

具備低時(shí)延、高性能、高可靠的存儲(chǔ)能力。IOPS達(dá)100萬(wàn),低至40us存儲(chǔ)時(shí)延,在大型數(shù)據(jù)庫(kù)等IO密集型業(yè)務(wù)場(chǎng)景表現(xiàn)優(yōu)異。

SA5采用2 100G高帶寬網(wǎng)絡(luò)架構(gòu),整機(jī)可提供4500萬(wàn)PPS(包/秒)、時(shí)延低至5us,在視頻直播等高網(wǎng)絡(luò)收發(fā)包場(chǎng)景,帶來(lái)超低時(shí)延體驗(yàn)。

訪存延時(shí)減半

得益于高密度的服務(wù)器設(shè)計(jì),星星海SA5將訪存延時(shí)縮減約50%,所有客戶應(yīng)用均可部署在一致性訪存環(huán)境中。

虛擬化損耗,零!

基于騰訊云自研銀杉DPU,將虛擬化損耗降到0,云服務(wù)器的全部算力都能為用戶所用。

在KVM開(kāi)源貢獻(xiàn)榜上,騰訊云也是中國(guó)唯一連續(xù)七年入圍的云廠商,實(shí)力無(wú)需多言。

騰訊云SA5支撐了剛剛過(guò)去的電商大促的算力高峰,故障0發(fā)生;同時(shí)SA5也被大規(guī)模運(yùn)用在騰訊內(nèi)部自研業(yè)務(wù),通過(guò)其極致性價(jià)比服務(wù)內(nèi)部業(yè)務(wù)日常運(yùn)營(yíng),為業(yè)務(wù)創(chuàng)造更多價(jià)值。

如果你遇到了加機(jī)器才能解決的問(wèn)題,不妨試試SA5。

如果你遇到了機(jī)器性能、成本方面的顧慮,不妨試試SA5。

立即登錄,閱讀全文
原文鏈接:點(diǎn)擊前往 >
文章來(lái)源:騰訊云開(kāi)發(fā)者
版權(quán)說(shuō)明:本文內(nèi)容來(lái)自于騰訊云開(kāi)發(fā)者,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
相關(guān)文章
騰訊云數(shù)據(jù)庫(kù)PostgreSQL全面支持PG 17
騰訊云數(shù)據(jù)庫(kù)PostgreSQL全面支持PG 17
即日起,騰訊云PostgreSQL全面支持PostgreSQL 17.0。所有用戶可使用大版本升級(jí)能力升級(jí)至最新的PostgreSQL 17.0進(jìn)行體驗(yàn),也可以在產(chǎn)品購(gòu)買(mǎi)頁(yè)直接購(gòu)買(mǎi)。
騰訊云
云服務(wù)
2024-12-15
高可用這個(gè)問(wèn)題,加機(jī)器就能解決?
高可用這個(gè)問(wèn)題,加機(jī)器就能解決?
互聯(lián)網(wǎng)服務(wù)的可用性問(wèn)題是困擾企業(yè)IT人員的達(dá)摩克利斯之劍:防于未然,體現(xiàn)不出價(jià)值。已然發(fā)生,又面臨P0危機(jī)。就更別提穩(wěn)定性建設(shè)背后顯性的IT預(yù)算問(wèn)題與隱性的人員成本問(wèn)題。
騰訊云
云服務(wù)
2024-11-25
TDSQL TDStore引擎版替換HBase:在歷史庫(kù)場(chǎng)景中的成本與性能優(yōu)勢(shì)
TDSQL TDStore引擎版替換HBase:在歷史庫(kù)場(chǎng)景中的成本與性能優(yōu)勢(shì)
HBase憑借其高可用性、高擴(kuò)展性和強(qiáng)一致性,以及在廉價(jià)PC服務(wù)器上的低部署成本,廣泛應(yīng)用于大規(guī)模數(shù)據(jù)分析。
騰訊云
云服務(wù)
2024-11-04
復(fù)雜查詢性能弱,只讀分析引擎來(lái)幫忙
復(fù)雜查詢性能弱,只讀分析引擎來(lái)幫忙
隨著當(dāng)今業(yè)務(wù)的高速發(fā)展,復(fù)雜多表關(guān)聯(lián)的場(chǎng)景越來(lái)越普遍。但基于行式存儲(chǔ)的數(shù)據(jù)庫(kù)在進(jìn)行復(fù)雜查詢時(shí)性能相對(duì)較弱。
騰訊云
云服務(wù)
2024-11-02
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開(kāi)掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家