AWS Systems Manager加入事件管理器助IT快速解決突發(fā)事件

來源: 十輪網(wǎng)
作者:十輪網(wǎng)
時間:2021-05-20
17701
AWS在其系統(tǒng)管理服務(wù)Systems Manager中,加入意外事件管理功能Incident Manager,協(xié)助用戶準備應(yīng)對事件回應(yīng)資源,并在應(yīng)用程序和基礎(chǔ)設(shè)施意外事件發(fā)生時,可快速有效應(yīng)對,而在解決事件之后,也能詳細地分析事件發(fā)生原因,且加以改善。

capture-decran-2021-05-04-a-10.21.34.jpg

AWS在其系統(tǒng)管理服務(wù)Systems Manager中,加入意外事件管理功能Incident Manager,協(xié)助用戶準備應(yīng)對事件回應(yīng)資源,并在應(yīng)用程序和基礎(chǔ)設(shè)施意外事件發(fā)生時,可快速有效應(yīng)對,而在解決事件之后,也能詳細地分析事件發(fā)生原因,且加以改善。

從1995年Amazon.com上線以來,Amazon團隊負責(zé)了該服務(wù)的意外事件回應(yīng),而在總結(jié)多年應(yīng)對各種規(guī)模的應(yīng)用程序以及基礎(chǔ)設(shè)施意外事件的經(jīng)驗,Amazon主要事件管理團隊設(shè)計出了Incident Manager,協(xié)助AWS用戶準備并快速回應(yīng)突發(fā)事件。

用戶可以使用Incident Manager為意外事件做準備,創(chuàng)建事件回應(yīng)資源集,而這些回應(yīng)資源在警示響起時,早已準備好隨時可供使用,事件回應(yīng)資源集有三個部分,第一是聯(lián)系人,包括參與解決事件的成員,以及聯(lián)系方式,第二是事件升級(Escalation)計劃,當(dāng)主要待命的回應(yīng)者沒有即時對事件做出回應(yīng),則調(diào)用其他聯(lián)系人,第三則是回應(yīng)計劃,規(guī)劃參與回應(yīng)的人員,應(yīng)該要執(zhí)行的工作,以及協(xié)作的渠道。

IT系統(tǒng)總有發(fā)生意外的時候,值班工程師便需要能快速恢復(fù)服務(wù),因此分秒必爭,而準備好的資源可以讓工程師,不需要慌張的找尋操作文件,以及協(xié)作成員的聯(lián)系方式,AWS提到,嚴重的問題通常需要升級,盡管可以從團隊成員獲得幫助,但要進行協(xié)作迅速解決問題,需要有效的溝通,在事件解決之后,工程師也需要從事件記錄中,找到問題根源,以改善平臺和事件回應(yīng)程序。

而Incident Manager的設(shè)計目的,是要協(xié)助企業(yè)創(chuàng)建事件準備以及回應(yīng)實踐。用戶通過創(chuàng)建回應(yīng)計劃,以標準化地方式準備事件,一旦事件發(fā)生時,就能立即做出反應(yīng)并且快速解決,而回應(yīng)事件可以由用戶選擇使用Amazon CloudWatch警示,或是Amazon EventBridge事件通知自動觸發(fā),必要的時候,用戶也可以手動激活回應(yīng)計劃。

當(dāng)回應(yīng)計劃啟動時,用戶可以快速找到聯(lián)系人信息,而新的儀表板會自動出現(xiàn)在事件管理器控制臺中,提供事件所涉及事務(wù)的信息,包括事件概述,讓回應(yīng)者可以迅速準確了解情況,還有與事件相關(guān)的CloudWatch指標和警示圖,可供回應(yīng)者掌握最新狀況。

事件時間軸會列出事件管理器中所有事件,還有回應(yīng)者手動添加的自定義事件,回應(yīng)者也可查看回應(yīng)計劃中的手冊與當(dāng)前執(zhí)行狀態(tài),事件管理器提供默認模板,提供分類、診斷、緩解和恢復(fù)步驟,一旁還有聯(lián)系人信息以及聯(lián)系頻道連接。

當(dāng)事件解決之后,用戶可以使用內(nèi)置模板,或是自定義的模板,來創(chuàng)建事件分析,以快速找出事件發(fā)生的根本原因,并規(guī)劃未來遭遇相同情況時,更快解決問題的方法。AWS提到,通過查看和編輯事件時間表,用戶可以放大特定事件及其處理方式,Incident Manager會自動在分析中添加問題,用戶可以通過回答這些問題,找出潛在改進的方法,并且在事件回應(yīng)程序中加入這些方法。

最后事件管理器會提供建議操作項目,用戶可以選擇接受或是關(guān)閉,當(dāng)用戶接受某個項目,該項目便會被加入清單中,用戶必須完成清單所有項目,才能夠關(guān)閉分析。目前Incident Manager已經(jīng)在美東、美西、歐洲激活,而亞太則在東京、新加坡和雪梨提供。

立即登錄,閱讀全文
AWS
版權(quán)說明:
本文內(nèi)容來自于十輪網(wǎng),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多