如果不是那么令人討厭,那時候的糟糕時機會很可笑,用于Azure,Office 365和Dynamics的Microsoft的多因素身份驗證(MFA)系統(tǒng)在本月第二次出現故障,該公司在11月19日的14個小時停機中公布了調查結果。
Azure Active Directory多因素身份驗證服務僅在UTC 05:00之前脫機,直到19:00 UTC之前仍不起作用。最初受影響的服務器是為歐洲和中東地區(qū)以及亞太地區(qū)提供服務的服務器;當這些區(qū)域醒來并嘗試進行身份驗證時,服務器超載并關閉。微軟試圖將某些身份驗證嘗試重定向到美國服務器,但這也只是使那些服務器超載的結果。
該公司的后續(xù)分析表明,三個單獨的錯誤共同造成了這些問題。11月19日,在過去六天中逐漸部署的代碼更改引發(fā)了一系列失敗。在一定的流量水平以上,新代碼導致前端服務器和緩存服務器之間的延遲大大增加。這進而揭示了后端服務器中的競爭狀況,導致它們一遍又一遍地重置前端服務器。然后,這揭示了第三個問題:后端服務器將創(chuàng)建越來越多的進程,最終使自己資源匱乏并使他們無響應。
今天的問題仍在調查中。MFA服務器自UTC 14:25開始一直超時,導致使用MFA時登錄嘗試失敗。目前,該公司認為,更早的DNS錯誤的解決已導致大量的身份驗證嘗試,實質上使MFA系統(tǒng)收到了超出其處理能力的更多請求。