微軟揭露Azure硬件故障預(yù)測新方法Narya細(xì)節(jié)

來源: 百家號(hào)
作者:科技社techpub
時(shí)間:2021-03-17
17612
從2020年開始,微軟開始著手在云端運(yùn)營中導(dǎo)入人工智能技術(shù),希望藉由人工智能來提高服務(wù)品質(zhì),而微軟在其云端平臺(tái)Azure中,部署端到端預(yù)測和故障緩解服務(wù),便是策略中的一環(huán)。Narya能預(yù)測可能發(fā)生故障的節(jié)點(diǎn),并自動(dòng)采取緩解措施解決潛在故障風(fēng)險(xiǎn),并透過收集數(shù)據(jù),改進(jìn)預(yù)測和緩解模型,現(xiàn)在Narya已經(jīng)成為Azure智慧基礎(chǔ)設(shè)施的關(guān)鍵部分。

b999a9014c086e061ba49f55570c54fc0ad1cba8.jpeg

從2020年開始,微軟開始著手在云端運(yùn)營中導(dǎo)入人工智能技術(shù),希望藉由人工智能來提高服務(wù)品質(zhì),而微軟在其云端平臺(tái)Azure中,部署端到端預(yù)測和故障緩解服務(wù),便是策略中的一環(huán)。Narya能預(yù)測可能發(fā)生故障的節(jié)點(diǎn),并自動(dòng)采取緩解措施解決潛在故障風(fēng)險(xiǎn),并透過收集數(shù)據(jù),改進(jìn)預(yù)測和緩解模型,現(xiàn)在Narya已經(jīng)成為Azure智慧基礎(chǔ)設(shè)施的關(guān)鍵部分。

Narya是以《魔戒》中精靈三戒之一的火之戒命名,火之戒在故事中,擁有能夠抵抗支配、絕望和疲勞的力量,而Narya在Azure中,則被賦予預(yù)測和緩解Azure主機(jī)故障的任務(wù),并衡量其采取的措施所帶來的影響,并透過自動(dòng)回饋循環(huán),智慧地調(diào)整緩解措施。

微軟提到,Narya已經(jīng)透過微軟通用機(jī)器學(xué)習(xí)和預(yù)測服務(wù)系統(tǒng)Resource Central平臺(tái),部署到全球的Azure運(yùn)算叢集中,已被用于生產(chǎn)環(huán)境一年多,降低26%的虛擬機(jī)器中斷事件,使得Azure整體工作負(fù)載更加穩(wěn)定順暢。

過去微軟預(yù)測故障和緩解的方法,雖然也是采用機(jī)器學(xué)習(xí)技術(shù),但只會(huì)根據(jù)預(yù)測選擇固定的緩解措施,像是當(dāng)某個(gè)硬件被標(biāo)記為存在風(fēng)險(xiǎn),則系統(tǒng)會(huì)通知在其上面執(zhí)行工作負(fù)載的用戶,并且阻止新的工作分配給該節(jié)點(diǎn),接著使用即時(shí)搬遷服務(wù),盡可能移走所有虛擬機(jī)器,過幾天后待所有虛擬機(jī)器停止運(yùn)作,微軟便會(huì)停止該節(jié)點(diǎn)進(jìn)行修復(fù)。

這個(gè)過程微軟看到一些可以改進(jìn)的點(diǎn),像是部分時(shí)候因?yàn)橛脖P損壞等過于嚴(yán)重的故障,無法等待幾天才停止或是重新部署虛擬機(jī)器,而且很多時(shí)候,節(jié)點(diǎn)被標(biāo)記為存在風(fēng)險(xiǎn),但其實(shí)只是很小的問題,甚至可能是誤報(bào),強(qiáng)制搬遷用戶的虛擬機(jī)器造成不必要的麻煩,因此微軟認(rèn)為,更好的做法是讓預(yù)測更加靈活,并且需要評(píng)估每個(gè)行動(dòng)切確對(duì)用戶產(chǎn)生的影響。

微軟依照這些需求設(shè)計(jì)了新系統(tǒng)Narya,在采取緩解措施時(shí),會(huì)考慮多種可能的辦法,而不是僅對(duì)存在風(fēng)險(xiǎn)的預(yù)測,提供單一緩減措施,Narya還會(huì)使用A/B測試框架和增強(qiáng)學(xué)習(xí)框架來找出最佳應(yīng)對(duì)措施。

Narya的故障預(yù)測和緩解措施分為三個(gè)階段,第一階段是預(yù)測故障,Narya會(huì)使用機(jī)隊(duì)遙測數(shù)據(jù),來預(yù)測主機(jī)的硬件故障,除了采用基于規(guī)則的預(yù)測外,Narya還會(huì)使用機(jī)器學(xué)習(xí)方法來產(chǎn)生準(zhǔn)確的預(yù)測。微軟提到,整合機(jī)器學(xué)習(xí)模型,就可以進(jìn)行更長時(shí)間的分析,分析比規(guī)則預(yù)測更多的信號(hào)和模式,因此能更早地預(yù)測故障。

Narya不采用固定的緩解策略,而會(huì)視情況選擇一些小步驟,將這些小步驟組合成緩解措施,像是其中一種緩解措施可能是將節(jié)點(diǎn)標(biāo)記為不可用,并且嘗試保留內(nèi)存內(nèi)容進(jìn)行核心軟件重新啟動(dòng),如果成功了便將節(jié)點(diǎn)重新標(biāo)記為可用,如果失敗了,便會(huì)執(zhí)行即時(shí)搬遷,并對(duì)該節(jié)點(diǎn)進(jìn)行診斷,當(dāng)發(fā)現(xiàn)存在問題的硬件,便會(huì)送維修更換硬件。

Narya采用更加靈活的方式應(yīng)對(duì)風(fēng)險(xiǎn)情況,而且使用A/B測試框架和增強(qiáng)學(xué)習(xí)框架,持續(xù)最佳化緩解措施,盡可能減少虛擬機(jī)器中斷的情況。執(zhí)行A/B測試時(shí),Narya會(huì)選擇不同的緩解措施,并與未采取任何措施的對(duì)照組比較,以收集數(shù)據(jù)確定哪種緩解措施更好,并且持續(xù)在往后的類似故障進(jìn)行比較,不斷地改進(jìn)緩解措施。增強(qiáng)學(xué)習(xí)框架則是用來找出最佳客戶體驗(yàn)的方法,讓Narya隨著時(shí)間,持續(xù)探索不同的行動(dòng),嘗試找出能提升客戶體驗(yàn)的新方式。

在對(duì)故障采取緩解措施后,Narya會(huì)收集新數(shù)據(jù),評(píng)估用戶影響,以便在Narya框架中的每個(gè)步驟,持續(xù)改進(jìn)模型,Narya會(huì)自動(dòng)進(jìn)行這個(gè)評(píng)估工作,更新專家規(guī)則和機(jī)器學(xué)習(xí)模型,在之后的決策中,提供更好的緩解措施。

e824b899a9014c0834be23ce5d7f2d007af4f4e4.png

微軟仍在持續(xù)改進(jìn)Narya,除了要讓Narya能夠處理更多種類的硬件故障之外,也希望能整合更多的緩解措施,響應(yīng)廣泛的故障預(yù)測事件。

立即登錄,閱讀全文
版權(quán)說明:
本文內(nèi)容來自于百家號(hào),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
相關(guān)文章
Azure Arc為企業(yè)構(gòu)建安全的云基礎(chǔ)
Azure Arc為企業(yè)構(gòu)建安全的云基礎(chǔ)
隨著人工智能技術(shù)持續(xù)重塑企業(yè)運(yùn)營方式,企業(yè)需要能夠處理海量數(shù)據(jù)的系統(tǒng),以支持實(shí)時(shí)洞察,同時(shí)幫助他們應(yīng)對(duì)跨IT和OT環(huán)境(包括云端、邊緣和本地)中運(yùn)營、應(yīng)用、數(shù)據(jù)和基礎(chǔ)設(shè)施的協(xié)作難題。
Azure
微軟云
云服務(wù)
2024-12-172024-12-17
釋放.NET 9和Azure的AI技術(shù)與云計(jì)算潛力:更快、更智能、面向未來
釋放.NET 9和Azure的AI技術(shù)與云計(jì)算潛力:更快、更智能、面向未來
.NET 9現(xiàn)已正式發(fā)布,它為.NET平臺(tái)的發(fā)展掀開了嶄新的一頁,突破了性能、云原生開發(fā)和AI技術(shù)集成的邊界。
Azure
微軟云
云服務(wù)
2024-12-162024-12-16
Azure網(wǎng)絡(luò)管理現(xiàn)已具備智能Microsoft Copilot副駕駛能力
Azure網(wǎng)絡(luò)管理現(xiàn)已具備智能Microsoft Copilot副駕駛能力
智能Microsoft Copilot副駕駛for Azure網(wǎng)絡(luò)服務(wù)現(xiàn)已推出公共預(yù)覽版。
Azure
微軟云
云服務(wù)
2024-12-102024-12-10
Microsoft Fabric功能更新,借助AI驅(qū)動(dòng)的數(shù)據(jù)平臺(tái)加速應(yīng)用創(chuàng)新
Microsoft Fabric功能更新,借助AI驅(qū)動(dòng)的數(shù)據(jù)平臺(tái)加速應(yīng)用創(chuàng)新
一年前,我們正式推出了一款端到端數(shù)據(jù)平臺(tái),旨在幫助組織推動(dòng)人工智能轉(zhuǎn)型,并重新定義數(shù)據(jù)的連接、管理和分析方式。
Azure
微軟云
云服務(wù)
2024-12-092024-12-09
掃碼登錄
打開掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
個(gè)人VIP
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家