近日,歐洲最大的云服務(wù)商——OVH位于法國(guó)斯特拉斯堡的數(shù)據(jù)中心遭遇了嚴(yán)重的火災(zāi)。
據(jù)悉,OVH在該區(qū)域共有4個(gè)數(shù)據(jù)中心,發(fā)生起火的SBG2數(shù)據(jù)中心被完全燒毀,SBG1的建筑物部分受損,SBG3因受到消防保護(hù)暫未受影響,SBG4則確認(rèn)沒(méi)有受到波及。但出于安全起見(jiàn),OVH將其位于斯特拉斯堡的全部數(shù)據(jù)中心都暫時(shí)關(guān)閉了服務(wù)。
公開(kāi)信息顯示,OVH在全球共有27個(gè)數(shù)據(jù)中心,15個(gè)位于歐洲。此次的火災(zāi)據(jù)稱(chēng)已導(dǎo)致超過(guò)350萬(wàn)個(gè)網(wǎng)站下線,影響波及政府機(jī)構(gòu)、門(mén)戶(hù)網(wǎng)站、銀行、商店、新聞網(wǎng)站等。值得注意的是,在這之前兩天,OVH剛啟動(dòng)了IPO計(jì)劃……
截圖自Twitter
OVH創(chuàng)始人兼董事長(zhǎng)Oktave Klaba建議客戶(hù)啟動(dòng)容災(zāi)恢復(fù)計(jì)劃,OVH將在接下來(lái)的1-2周對(duì)服務(wù)器作緊急修復(fù),完全恢復(fù)時(shí)間待定。
對(duì)于此次火災(zāi)的影響,卡巴斯基實(shí)驗(yàn)室(Kaspersky Lab)全球研究與分析團(tuán)隊(duì)主任Costin Raiu表示,他們追蹤了140臺(tái)OVH服務(wù)器,這些服務(wù)器在火災(zāi)后下降了36%(應(yīng)該是指正常使用數(shù)量)。
一款游戲的「慘態(tài)」可能有一定的代表性。Rust旗下的游戲工作室Facepunch Studios證實(shí),他們的數(shù)據(jù)已在這場(chǎng)大火中完全滅失,他們正在尋求替代受影響的服務(wù)器,但即使替換完成,數(shù)據(jù)也無(wú)法恢復(fù)。
截圖自Twitter
OVH及其客戶(hù)的遭遇并不特殊,云服務(wù)行業(yè)數(shù)據(jù)丟失的案例不少,以中國(guó)云服務(wù)商的幾大代表——阿里云、騰訊云、華為云——身上就可見(jiàn)一斑:
阿里云
2018年6月27日,阿里云官方控制臺(tái)和部分阿里云產(chǎn)品出現(xiàn)了故障,受影響范圍包括阿里云官網(wǎng)控制臺(tái),以及MQ、NAS、OSS等產(chǎn)品功能。問(wèn)題當(dāng)天得到了解決。
阿里云在官方聲明中表示,故障原因是一項(xiàng)運(yùn)維操作導(dǎo)致的,「……工程師團(tuán)隊(duì)在上線一個(gè)自動(dòng)化運(yùn)維新功能中,執(zhí)行了一項(xiàng)變更驗(yàn)證操作。這一功能在測(cè)試環(huán)境驗(yàn)證中并未發(fā)生問(wèn)題,上線到自動(dòng)化運(yùn)維系統(tǒng)后,觸發(fā)了一個(gè)未知代碼bug,錯(cuò)誤代碼禁用了部分內(nèi)部IP,導(dǎo)致部分產(chǎn)品訪問(wèn)鏈路不通……」。
2019年3月3日,阿里云出現(xiàn)大規(guī)模宕機(jī)故障,影響了眾多華北地區(qū)的互聯(lián)網(wǎng)公司。阿里云官方表示,「華北2地域可用區(qū)C部分ECS服務(wù)器等實(shí)例出現(xiàn)IO HANG」,經(jīng)緊急排查處理后逐步恢復(fù),將根據(jù)協(xié)議盡快賠償。
僅2周多之后的3月20日,阿里系多款產(chǎn)品又一次出現(xiàn)短時(shí)間無(wú)法正常運(yùn)作的情況,致使阿里系多款產(chǎn)品癱瘓,涵蓋App包括淘寶、天貓、淘寶直播、閑魚(yú)等。
一天后的3月21日,阿里云再一次發(fā)生故障,涉及的是部署在阿里云上的鐵路12306部分服務(wù),當(dāng)用戶(hù)搜索車(chē)票時(shí)系統(tǒng)顯示「很抱歉,查詢(xún)失敗,您可以稍后點(diǎn)擊下面按鈕重試」。
騰訊云
2018年7月24日,多名網(wǎng)友反映騰訊云服務(wù)出現(xiàn)異常宕機(jī)事故。騰訊云客服表示,控制臺(tái)登錄異常,故障是因騰訊云廣州一區(qū)的主備兩條運(yùn)營(yíng)商網(wǎng)絡(luò)鏈路同時(shí)中斷所導(dǎo)致,騰訊表示今后騰訊將重新梳理網(wǎng)絡(luò)架構(gòu),引入更多維度的容災(zāi)機(jī)制,力爭(zhēng)將故障隱患降到最低。
2018年8月5日,北京一家使用了騰訊云服務(wù)器的企業(yè),云服務(wù)器上包括備份的數(shù)據(jù)全部丟失,導(dǎo)致其幾年內(nèi)的平臺(tái)數(shù)據(jù)全部丟失,聲稱(chēng)造成「近千萬(wàn)元損失」。隔日,騰訊云向該公司表達(dá)歉意,同時(shí)表示安排專(zhuān)人積極溝通,制定「賠償+補(bǔ)償」方案,以期將用戶(hù)損失降最低。
對(duì)于故障原因,騰訊云稱(chēng)是因受所在物理硬盤(pán)固件版本bug導(dǎo)致的靜默錯(cuò)誤使得文件系統(tǒng)元數(shù)據(jù)損壞。騰訊云聲明,后續(xù)針對(duì)云盤(pán)產(chǎn)品會(huì)額外實(shí)行定期強(qiáng)災(zāi)備措施,進(jìn)一步保障用戶(hù)數(shù)據(jù)的可靠性。
華為云
2020年4月10日,一直對(duì)外宣稱(chēng)「不宕機(jī)的云才是好云」的華為云服務(wù)歷史上首次大面積故障。不少使用云服務(wù)的后臺(tái)都出現(xiàn)了「服務(wù)器暫時(shí)過(guò)載或處于維護(hù)中,請(qǐng)稍后重試」、「建立數(shù)據(jù)庫(kù)連接時(shí)出錯(cuò)」等提示。
華為云官微回應(yīng)稱(chēng),檢測(cè)到部分主機(jī)異常,故障基本修復(fù),部分客戶(hù)的業(yè)務(wù)正在配合恢復(fù)中。但截至該條微博發(fā)布之時(shí),仍有不少業(yè)內(nèi)人士反映尚無(wú)法訪問(wèn)華為云的服務(wù)器。
當(dāng)然,國(guó)內(nèi)的阿里云、騰訊云、華為云之外,全球排行前列的亞馬遜AWS、谷歌云、微軟Azure等,也都無(wú)一幸免,出現(xiàn)過(guò)相關(guān)故障……