微軟現(xiàn)在讓Azure用戶可以了解虛擬機發(fā)生原因的根本問題,借由使用新的根本原因分析(Root Cause Analysis,RCA)引擎,解析Azure平臺設(shè)備和服務(wù)的遙測資料,經(jīng)過關(guān)聯(lián)和歸因分析之后,對不同故障狀況給出根本原因解釋。
現(xiàn)有的Azure資源健康狀態(tài)總覽功能,可以協(xié)助用戶診斷影響Azure服務(wù)的問題,該功能會提供當(dāng)前和過去的運行狀況,顯示每個人信息源無法使用的時間,但是無法提供發(fā)生問題的潛在原因,而現(xiàn)在微軟強化Azure資源健康狀態(tài)總覽功能,以提供用戶更多有關(guān)于資源運行的狀況,以及導(dǎo)致問題發(fā)生的背景信息。
現(xiàn)在當(dāng)虛擬機發(fā)生可用性問題時,用戶除了可以快速獲得通知之外,當(dāng)自動化根本原因分析(RCA)確定導(dǎo)致虛擬機出現(xiàn)故障的Azure平臺組件,用戶便可查看調(diào)查細節(jié)。RCA引擎的原理和背后技術(shù)核心,源自于Azure資料總管(ADX),這是一個大規(guī)模日志遙測分析系統(tǒng),經(jīng)優(yōu)化所提供的資料服務(wù),Azure資料總管能夠解析Azure平臺設(shè)備與服務(wù)的數(shù)TB日志遙測資料,并且經(jīng)過綜合分析后,給出故障的詳細信息。
自動化根本原因分析有幾個階段,第一階段是定義分析觸發(fā)事件,RCA需要確認虛擬機是不是在非預(yù)期的情況下重新啟動,因此觸發(fā)事件便是從啟動狀態(tài)變成關(guān)閉狀態(tài)的轉(zhuǎn)換,微軟解釋,在大多數(shù)情況下,利用平臺遙測資料來識別這些轉(zhuǎn)換很簡單,但是在部分類型的基礎(chǔ)設(shè)施故障時,便會很困難,而且平臺遙測可能會因為設(shè)備故障或是斷電而失效。為了處理這類型的故障,微軟必須使用其他類型的技術(shù),像是資料丟失關(guān)注,來作為虛擬機運行狀態(tài)轉(zhuǎn)換的可能指標(biāo)。
在確認觸發(fā)事件之后,接下來便要進行相關(guān)性分析,Azure平臺上的系統(tǒng),包括主機或是存儲等各部分,都有各自的遙測饋送,RCA引擎需要對這些遙測資料進行解析,并找出與虛擬機觸發(fā)事件的關(guān)聯(lián),通過了解可能導(dǎo)致虛擬機故障的底層系統(tǒng)相依關(guān)系圖,將所有相依系統(tǒng)的健康狀態(tài)集成在一起,過濾時間相近的虛擬機轉(zhuǎn)換事件,來探索相關(guān)性。
在相關(guān)性分析結(jié)束后,輸出會是一個人信息料集,來表示虛擬機停機時間相關(guān)的平臺遙測資料,以提供判斷虛擬機故障的可能原因。RCA引擎會根據(jù)這個人信息料集,應(yīng)用歸因規(guī)則來解釋信息,并將其轉(zhuǎn)換成為用戶能夠理解的消息。
最后一個階段則是將根本原因發(fā)布到Azure資源健康狀態(tài)總覽,供用戶查看故障的進一步信息,微軟提到,因為信息流可能會因為各種資料延遲,而推延出現(xiàn)的時間,所以在這個過程可能會偶爾更新分析信息,以反映更具體更細節(jié)的根本原因。