IT之家 12月12日消息,12月7日,亞馬遜AWS云服務(wù)出現(xiàn)宕機,導(dǎo)致部分互聯(lián)網(wǎng)服務(wù)離線數(shù)小時。
近日,亞馬遜已經(jīng)查明了本次宕機的原因,一項自動化過程導(dǎo)致了中斷,該中斷始于美國東部時間上午10:30左右。
據(jù)解釋稱,一項用于AWS主網(wǎng)絡(luò)中的自動化容量擴展服務(wù)出現(xiàn)錯誤,觸發(fā)了內(nèi)部網(wǎng)絡(luò)大量客戶端的意外行為,這導(dǎo)致連接活動大量涌現(xiàn),使內(nèi)部網(wǎng)絡(luò)和AWS主網(wǎng)絡(luò)之間的網(wǎng)絡(luò)設(shè)備不堪重負,并最終導(dǎo)致網(wǎng)絡(luò)之間的通信延遲。
這個錯誤甚至影響了亞馬遜修復(fù)該問題的能力,它阻止了運營團隊使用實時監(jiān)控系統(tǒng)和內(nèi)部控制,不得不使用日志來查明發(fā)生了什么。亞馬遜指出,服務(wù)啟動直到美國東部時間下午4:34才開始改進,問題在美國東部時間下午5:22完全解決。
IT之家了解到,由于亞馬遜的支持聯(lián)絡(luò)中心也在AWS網(wǎng)絡(luò)上運行,因此客戶在中斷期間的七個小時內(nèi)無法創(chuàng)建支持案例,亞馬遜服務(wù)健康儀表板也受到影響。
亞馬遜表示,它正在努力改進對中斷的響應(yīng),并計劃發(fā)布服務(wù)健康儀表板的改進版本,如果發(fā)生中斷,應(yīng)該可以幫助客戶及時收到更新。