谷歌云宕機(jī)4小時(shí)：逃不脫的“宕機(jī)噩夢(mèng)”，企業(yè)該如何自救？

來(lái)源：高效開(kāi)發(fā)運(yùn)維

作者：Lisa

時(shí)間：2019-06-04

美國(guó)時(shí)間 2019 年 6 月 2 日，谷歌云被曝發(fā)生故障，Snapchat、Pokemon GO、YouTube、Gmail 等均受到影響，谷歌隨后表示故障開(kāi)始于美國(guó)時(shí)間 2019 年 6 月 2 日 12:53，結(jié)束于 2019 年 6 月 2 日 16:56。

谷歌云發(fā)生故障，YouTube、Gmail、Snapchat 等受影響

近日，谷歌云被曝發(fā)生故障，不少網(wǎng)站和服務(wù)因此遭到破壞，其中包括谷歌旗下服務(wù)以及非谷歌服務(wù)。據(jù)不完全統(tǒng)計(jì)，Snapchat、Vimeo、Shopify、Discord、Pokemon GO，以及谷歌的大部分服務(wù)，比如 YouTube、Gmail、谷歌搜索、G Suite 等均受到影響。

據(jù)了解，美國(guó)東海岸用戶率先報(bào)告了這個(gè)問(wèn)題，但 DownDetector 的報(bào)告表明，可能有更多地區(qū)受此影響。隨后，一些歐洲用戶也報(bào)告了這一問(wèn)題，但北美地區(qū)用戶受到的影響最大。DownDetector 發(fā)布的谷歌云平臺(tái)聲明中稱 Google Compute Engine 遇到了多區(qū)域問(wèn)題。

谷歌員工在 HackerNews 中表示，本次故障非常嚴(yán)重，以至于谷歌內(nèi)部工程師相互溝通的工具也受到了影響，這讓恢復(fù)工作變得更加困難。

從目前曝光的信息來(lái)看，本次故障可能與 Level 3 中斷有關(guān)，這是一家總部位于美國(guó)的 ISP（互聯(lián)網(wǎng)服務(wù)供應(yīng)商），為谷歌數(shù)據(jù)中心提供連接和各種其他服務(wù)。

盤(pán)點(diǎn)谷歌云宕機(jī)事件

事實(shí)上，云平臺(tái)宕機(jī)并不是件新鮮事兒。近兩年，因?yàn)樵破脚_(tái)宕機(jī)造成的事故數(shù)不勝數(shù)，比如 Gitlab 曾因誤刪除引起服務(wù)中斷 18 小時(shí)，并且無(wú)法完全恢復(fù)；亞馬遜 AWS 因一條錯(cuò)誤指令引起宕機(jī)，隨后大部分互聯(lián)網(wǎng)，包括 Slack、Quora 和 Trello 在內(nèi)的企業(yè)平臺(tái)停機(jī) 4 個(gè)小時(shí)；微軟 Azure 公有云出現(xiàn)超過(guò) 8 小時(shí)的存儲(chǔ)可用性問(wèn)題等。

谷歌云在過(guò)去一年也曾多次發(fā)生宕機(jī)事件。

2018 年 1 月 18 日，谷歌云自動(dòng)化機(jī)制失效，導(dǎo)致其 us-central1 和 europe-west3 兩大可用區(qū)中的計(jì)算引擎停運(yùn) 93 分鐘。谷歌對(duì)此的回應(yīng)是“網(wǎng)絡(luò)編程失效”導(dǎo)致 Autoscaler（自動(dòng)擴(kuò)展器）服務(wù)無(wú)法正常運(yùn)行，該服務(wù)失效意味著新的虛擬機(jī)或剛遷移的虛擬機(jī)無(wú)法與其他可用區(qū)虛擬機(jī)聯(lián)系。

2018 年 11 月 9 日，谷歌公有云上提供的 Kubernetes 服務(wù)（GKE）節(jié)點(diǎn)池建置功能出現(xiàn)異常，維運(yùn)人員無(wú)法透過(guò) Cloud Console UI 建立新節(jié)點(diǎn)。谷歌派工程團(tuán)隊(duì)調(diào)查故障原因，并開(kāi)始著手維修。谷歌表示，受影響的企業(yè)用戶可以先改為使用 GCP 內(nèi)建的 gcloud command，建置新 Kubernetes 節(jié)點(diǎn)，這次的宕機(jī)時(shí)間長(zhǎng)達(dá) 19 小時(shí)。

云平臺(tái)宕機(jī)，企業(yè)如何自救？

無(wú)論是傳統(tǒng)環(huán)境還是云環(huán)境，都不能做到絕對(duì)的“持續(xù)可用”。大部分情況下，云環(huán)境的可用性和可靠性都比傳統(tǒng)環(huán)境要高，這主要是因?yàn)樵破脚_(tái)的運(yùn)維更加專業(yè)。既然任何環(huán)境都有出現(xiàn)故障的可能，那么需要重視的問(wèn)題就是“發(fā)生故障時(shí)，應(yīng)該怎么辦”。

首先，要接受風(fēng)險(xiǎn)，這一點(diǎn)很重要。從現(xiàn)階段國(guó)內(nèi)的云計(jì)算發(fā)展進(jìn)程來(lái)看，上云是不可避免的，在這種情況下，企業(yè)應(yīng)該保持正確的心理，畢竟只要是系統(tǒng)，都會(huì)發(fā)生故障。國(guó)內(nèi)主流云計(jì)算廠商已經(jīng)投入了大量精力和成本在可用性和可靠性層面，這肯定要優(yōu)于不少技術(shù)能力不足、成本有限的企業(yè)自建服務(wù)器。如果出現(xiàn)這種情況，那么走應(yīng)急預(yù)案，用非系統(tǒng)的方式盡量降低風(fēng)險(xiǎn)。例如，某個(gè)服務(wù)宕機(jī)了，及時(shí)在官網(wǎng)做出聲明。

其次，分散風(fēng)險(xiǎn)。云環(huán)境的同城雙活、異地災(zāi)備等方案基本就緒，盡量在經(jīng)濟(jì)和人員條件可行的情況下使用這些分散風(fēng)險(xiǎn)的方法。如果故障只出在一個(gè)服務(wù)器集群，采用異地災(zāi)備方案可以在最快時(shí)間切換到另一個(gè)集群，從而保持系統(tǒng)可用。雖然還是會(huì)有中斷，但是可以最快時(shí)間恢復(fù)。

按照此模式，云下系統(tǒng)做云上災(zāi)備也是防范傳統(tǒng)環(huán)境出現(xiàn)可用性問(wèn)題的一種重要手段。作為企業(yè)的 IT 人員，日常做到以下四點(diǎn)可以盡可能避免云故障帶來(lái)的損失。

備份、備份，還是備份，要異機(jī)異地；
數(shù)據(jù)容災(zāi)；
業(yè)務(wù)雙活；
定期對(duì)災(zāi)備和雙活進(jìn)行演練。

盡管云平臺(tái)會(huì)發(fā)生故障，但企業(yè)對(duì)云的信賴度依然很高。Gartner 研究主管 Sid Nag 曾表示，云服務(wù)市場(chǎng)的增長(zhǎng)速度比幾乎所有 IT 市場(chǎng)都要快，其中大部分增長(zhǎng)是以傳統(tǒng)非云服務(wù)為代價(jià)，尤其是基于云計(jì)算的 IaaS 需求在繼續(xù)增長(zhǎng)，預(yù)計(jì)將在未來(lái) 5 年呈現(xiàn)最快增長(zhǎng)趨勢(shì)。因此，我們不能對(duì)云服務(wù)故障抱有恐懼，而是要提高災(zāi)備意識(shí)。

Google

上一篇：?jiǎn)萎a(chǎn)品月流水超2億，會(huì)玩的國(guó)產(chǎn)游戲，都在日本用起了新套路

原文鏈接：點(diǎn)擊前往 >

文章來(lái)源：高效開(kāi)發(fā)運(yùn)維

版權(quán)說(shuō)明：本文內(nèi)容來(lái)自于高效開(kāi)發(fā)運(yùn)維，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán)，請(qǐng)聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章