谷歌云宕機4小時:逃不脫的“宕機噩夢”,企業(yè)該如何自救?

來源:高效開發(fā)運維
作者:Lisa
時間:2019-06-04
11562
美國時間 2019 年 6 月 2 日,谷歌云被曝發(fā)生故障,Snapchat、Pokemon GO、YouTube、Gmail 等均受到影響,谷歌隨后表示故障開始于美國時間 2019 年 6 月 2 日 12:53,結(jié)束于 2019 年 6 月 2 日 16:56。

谷歌云發(fā)生故障,YouTube、Gmail、Snapchat 等受影響  


近日,谷歌云被曝發(fā)生故障,不少網(wǎng)站和服務(wù)因此遭到破壞,其中包括谷歌旗下服務(wù)以及非谷歌服務(wù)。據(jù)不完全統(tǒng)計,Snapchat、Vimeo、Shopify、Discord、Pokemon GO,以及谷歌的大部分服務(wù),比如 YouTube、Gmail、谷歌搜索、G Suite 等均受到影響。



據(jù)了解,美國東海岸用戶率先報告了這個問題,但 DownDetector 的報告表明,可能有更多地區(qū)受此影響。隨后,一些歐洲用戶也報告了這一問題,但北美地區(qū)用戶受到的影響最大。DownDetector 發(fā)布的谷歌云平臺聲明中稱 Google Compute Engine 遇到了多區(qū)域問題。


谷歌員工在 HackerNews 中表示,本次故障非常嚴重,以至于谷歌內(nèi)部工程師相互溝通的工具也受到了影響,這讓恢復工作變得更加困難。

從目前曝光的信息來看,本次故障可能與 Level 3 中斷有關(guān),這是一家總部位于美國的 ISP(互聯(lián)網(wǎng)服務(wù)供應(yīng)商),為谷歌數(shù)據(jù)中心提供連接和各種其他服務(wù)。


盤點谷歌云宕機事件  

事實上,云平臺宕機并不是件新鮮事兒。近兩年,因為云平臺宕機造成的事故數(shù)不勝數(shù),比如 Gitlab 曾因誤刪除引起服務(wù)中斷 18 小時,并且無法完全恢復;亞馬遜 AWS 因一條錯誤指令引起宕機,隨后大部分互聯(lián)網(wǎng),包括 Slack、Quora 和 Trello 在內(nèi)的企業(yè)平臺停機 4 個小時;微軟 Azure 公有云出現(xiàn)超過 8 小時的存儲可用性問題等。

谷歌云在過去一年也曾多次發(fā)生宕機事件。


2018 年 1 月 18 日,谷歌云自動化機制失效,導致其 us-central1 和 europe-west3 兩大可用區(qū)中的計算引擎停運 93 分鐘。谷歌對此的回應(yīng)是“網(wǎng)絡(luò)編程失效”導致 Autoscaler(自動擴展器)服務(wù)無法正常運行,該服務(wù)失效意味著新的虛擬機或剛遷移的虛擬機無法與其他可用區(qū)虛擬機聯(lián)系。


2018 年 11 月 9 日,谷歌公有云上提供的 Kubernetes 服務(wù)(GKE)節(jié)點池建置功能出現(xiàn)異常,維運人員無法透過 Cloud Console UI 建立新節(jié)點。谷歌派工程團隊調(diào)查故障原因,并開始著手維修。谷歌表示,受影響的企業(yè)用戶可以先改為使用 GCP 內(nèi)建的 gcloud command,建置新 Kubernetes 節(jié)點,這次的宕機時間長達 19 小時。


云平臺宕機,企業(yè)如何自救?  

無論是傳統(tǒng)環(huán)境還是云環(huán)境,都不能做到絕對的“持續(xù)可用”。大部分情況下,云環(huán)境的可用性和可靠性都比傳統(tǒng)環(huán)境要高,這主要是因為云平臺的運維更加專業(yè)。既然任何環(huán)境都有出現(xiàn)故障的可能,那么需要重視的問題就是“發(fā)生故障時,應(yīng)該怎么辦”。


首先,要接受風險,這一點很重要。從現(xiàn)階段國內(nèi)的云計算發(fā)展進程來看,上云是不可避免的,在這種情況下,企業(yè)應(yīng)該保持正確的心理,畢竟只要是系統(tǒng),都會發(fā)生故障。國內(nèi)主流云計算廠商已經(jīng)投入了大量精力和成本在可用性和可靠性層面,這肯定要優(yōu)于不少技術(shù)能力不足、成本有限的企業(yè)自建服務(wù)器。如果出現(xiàn)這種情況,那么走應(yīng)急預(yù)案,用非系統(tǒng)的方式盡量降低風險。例如,某個服務(wù)宕機了,及時在官網(wǎng)做出聲明。


其次,分散風險。云環(huán)境的同城雙活、異地災(zāi)備等方案基本就緒,盡量在經(jīng)濟和人員條件可行的情況下使用這些分散風險的方法。如果故障只出在一個服務(wù)器集群,采用異地災(zāi)備方案可以在最快時間切換到另一個集群,從而保持系統(tǒng)可用。雖然還是會有中斷,但是可以最快時間恢復。


按照此模式,云下系統(tǒng)做云上災(zāi)備也是防范傳統(tǒng)環(huán)境出現(xiàn)可用性問題的一種重要手段。作為企業(yè)的 IT 人員,日常做到以下四點可以盡可能避免云故障帶來的損失。


  1. 備份、備份,還是備份,要異機異地;

  2. 數(shù)據(jù)容災(zāi);

  3. 業(yè)務(wù)雙活;

  4. 定期對災(zāi)備和雙活進行演練。


盡管云平臺會發(fā)生故障,但企業(yè)對云的信賴度依然很高。Gartner 研究主管 Sid Nag 曾表示,云服務(wù)市場的增長速度比幾乎所有 IT 市場都要快,其中大部分增長是以傳統(tǒng)非云服務(wù)為代價,尤其是基于云計算的 IaaS 需求在繼續(xù)增長,預(yù)計將在未來 5 年呈現(xiàn)最快增長趨勢。因此,我們不能對云服務(wù)故障抱有恐懼,而是要提高災(zāi)備意識。


立即登錄,閱讀全文
原文鏈接:點擊前往 >
文章來源:高效開發(fā)運維
版權(quán)說明:本文內(nèi)容來自于高效開發(fā)運維 ,本站不擁有所有權(quán),不承擔相關(guān)法律責任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
掃碼關(guān)注
獲取更多出海資訊的相關(guān)信息
優(yōu)質(zhì)服務(wù)商推薦
更多