谷歌云宕機(jī)4小時(shí):逃不脫的“宕機(jī)噩夢(mèng)”,企業(yè)該如何自救?

來源:高效開發(fā)運(yùn)維
作者:Lisa
時(shí)間:2019-06-04
11686
美國(guó)時(shí)間 2019 年 6 月 2 日,谷歌云被曝發(fā)生故障,Snapchat、Pokemon GO、YouTube、Gmail 等均受到影響,谷歌隨后表示故障開始于美國(guó)時(shí)間 2019 年 6 月 2 日 12:53,結(jié)束于 2019 年 6 月 2 日 16:56。

谷歌云發(fā)生故障,YouTube、Gmail、Snapchat 等受影響  


近日,谷歌云被曝發(fā)生故障,不少網(wǎng)站和服務(wù)因此遭到破壞,其中包括谷歌旗下服務(wù)以及非谷歌服務(wù)。據(jù)不完全統(tǒng)計(jì),Snapchat、Vimeo、Shopify、Discord、Pokemon GO,以及谷歌的大部分服務(wù),比如 YouTube、Gmail、谷歌搜索、G Suite 等均受到影響。



據(jù)了解,美國(guó)東海岸用戶率先報(bào)告了這個(gè)問題,但 DownDetector 的報(bào)告表明,可能有更多地區(qū)受此影響。隨后,一些歐洲用戶也報(bào)告了這一問題,但北美地區(qū)用戶受到的影響最大。DownDetector 發(fā)布的谷歌云平臺(tái)聲明中稱 Google Compute Engine 遇到了多區(qū)域問題。


谷歌員工在 HackerNews 中表示,本次故障非常嚴(yán)重,以至于谷歌內(nèi)部工程師相互溝通的工具也受到了影響,這讓恢復(fù)工作變得更加困難。

從目前曝光的信息來看,本次故障可能與 Level 3 中斷有關(guān),這是一家總部位于美國(guó)的 ISP(互聯(lián)網(wǎng)服務(wù)供應(yīng)商),為谷歌數(shù)據(jù)中心提供連接和各種其他服務(wù)。


盤點(diǎn)谷歌云宕機(jī)事件  

事實(shí)上,云平臺(tái)宕機(jī)并不是件新鮮事兒。近兩年,因?yàn)樵破脚_(tái)宕機(jī)造成的事故數(shù)不勝數(shù),比如 Gitlab 曾因誤刪除引起服務(wù)中斷 18 小時(shí),并且無法完全恢復(fù);亞馬遜 AWS 因一條錯(cuò)誤指令引起宕機(jī),隨后大部分互聯(lián)網(wǎng),包括 Slack、Quora 和 Trello 在內(nèi)的企業(yè)平臺(tái)停機(jī) 4 個(gè)小時(shí);微軟 Azure 公有云出現(xiàn)超過 8 小時(shí)的存儲(chǔ)可用性問題等。

谷歌云在過去一年也曾多次發(fā)生宕機(jī)事件。


2018 年 1 月 18 日,谷歌云自動(dòng)化機(jī)制失效,導(dǎo)致其 us-central1 和 europe-west3 兩大可用區(qū)中的計(jì)算引擎停運(yùn) 93 分鐘。谷歌對(duì)此的回應(yīng)是“網(wǎng)絡(luò)編程失效”導(dǎo)致 Autoscaler(自動(dòng)擴(kuò)展器)服務(wù)無法正常運(yùn)行,該服務(wù)失效意味著新的虛擬機(jī)或剛遷移的虛擬機(jī)無法與其他可用區(qū)虛擬機(jī)聯(lián)系。


2018 年 11 月 9 日,谷歌公有云上提供的 Kubernetes 服務(wù)(GKE)節(jié)點(diǎn)池建置功能出現(xiàn)異常,維運(yùn)人員無法透過 Cloud Console UI 建立新節(jié)點(diǎn)。谷歌派工程團(tuán)隊(duì)調(diào)查故障原因,并開始著手維修。谷歌表示,受影響的企業(yè)用戶可以先改為使用 GCP 內(nèi)建的 gcloud command,建置新 Kubernetes 節(jié)點(diǎn),這次的宕機(jī)時(shí)間長(zhǎng)達(dá) 19 小時(shí)。


云平臺(tái)宕機(jī),企業(yè)如何自救?  

無論是傳統(tǒng)環(huán)境還是云環(huán)境,都不能做到絕對(duì)的“持續(xù)可用”。大部分情況下,云環(huán)境的可用性和可靠性都比傳統(tǒng)環(huán)境要高,這主要是因?yàn)樵破脚_(tái)的運(yùn)維更加專業(yè)。既然任何環(huán)境都有出現(xiàn)故障的可能,那么需要重視的問題就是“發(fā)生故障時(shí),應(yīng)該怎么辦”。


首先,要接受風(fēng)險(xiǎn),這一點(diǎn)很重要。從現(xiàn)階段國(guó)內(nèi)的云計(jì)算發(fā)展進(jìn)程來看,上云是不可避免的,在這種情況下,企業(yè)應(yīng)該保持正確的心理,畢竟只要是系統(tǒng),都會(huì)發(fā)生故障。國(guó)內(nèi)主流云計(jì)算廠商已經(jīng)投入了大量精力和成本在可用性和可靠性層面,這肯定要優(yōu)于不少技術(shù)能力不足、成本有限的企業(yè)自建服務(wù)器。如果出現(xiàn)這種情況,那么走應(yīng)急預(yù)案,用非系統(tǒng)的方式盡量降低風(fēng)險(xiǎn)。例如,某個(gè)服務(wù)宕機(jī)了,及時(shí)在官網(wǎng)做出聲明。


其次,分散風(fēng)險(xiǎn)。云環(huán)境的同城雙活、異地災(zāi)備等方案基本就緒,盡量在經(jīng)濟(jì)和人員條件可行的情況下使用這些分散風(fēng)險(xiǎn)的方法。如果故障只出在一個(gè)服務(wù)器集群,采用異地災(zāi)備方案可以在最快時(shí)間切換到另一個(gè)集群,從而保持系統(tǒng)可用。雖然還是會(huì)有中斷,但是可以最快時(shí)間恢復(fù)。


按照此模式,云下系統(tǒng)做云上災(zāi)備也是防范傳統(tǒng)環(huán)境出現(xiàn)可用性問題的一種重要手段。作為企業(yè)的 IT 人員,日常做到以下四點(diǎn)可以盡可能避免云故障帶來的損失。


  1. 備份、備份,還是備份,要異機(jī)異地;

  2. 數(shù)據(jù)容災(zāi);

  3. 業(yè)務(wù)雙活;

  4. 定期對(duì)災(zāi)備和雙活進(jìn)行演練。


盡管云平臺(tái)會(huì)發(fā)生故障,但企業(yè)對(duì)云的信賴度依然很高。Gartner 研究主管 Sid Nag 曾表示,云服務(wù)市場(chǎng)的增長(zhǎng)速度比幾乎所有 IT 市場(chǎng)都要快,其中大部分增長(zhǎng)是以傳統(tǒng)非云服務(wù)為代價(jià),尤其是基于云計(jì)算的 IaaS 需求在繼續(xù)增長(zhǎng),預(yù)計(jì)將在未來 5 年呈現(xiàn)最快增長(zhǎng)趨勢(shì)。因此,我們不能對(duì)云服務(wù)故障抱有恐懼,而是要提高災(zāi)備意識(shí)。


立即登錄,閱讀全文
原文鏈接:點(diǎn)擊前往 >
文章來源:高效開發(fā)運(yùn)維
版權(quán)說明:本文內(nèi)容來自于高效開發(fā)運(yùn)維 ,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
掃碼關(guān)注
獲取更多出海資訊的相關(guān)信息
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
個(gè)人VIP
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家