隨著數(shù)據(jù)中心規(guī)模的擴張,用于存儲數(shù)據(jù)的硬盤數(shù)量不斷增長。云計算平臺中要使用數(shù)以百萬級的硬盤作為數(shù)據(jù)存儲載體,高效、可靠又穩(wěn)定的硬盤存儲系統(tǒng)對于云服務(wù)的重要性不言而喻。
正因為硬盤是云計算系統(tǒng)中最為重要的存儲載體,硬盤的健康管理是云服務(wù)穩(wěn)健可靠的根本。
為此,希捷與騰訊云服務(wù)器運營團隊在2018年開始在騰訊云的數(shù)據(jù)中心中部署了FARM技術(shù),從而對云平臺和數(shù)據(jù)中心的每一塊硬盤進行實時的“體檢”與健康管理。
為什么FARM能夠做到硬盤的健康狀況預(yù)知?這項技術(shù)又是怎樣被應(yīng)用的?今天我們就來系統(tǒng)地為大家追根溯源,看看FARM究竟是一項什么神秘的黑科技?
FARM是什么?
一看見FARM這個詞,大家很容易聯(lián)想到風(fēng)吹草低見牛羊。但真相是,F(xiàn)ARM的全稱為Field Accessibility Reliability Metrics,最早于2018年OCP峰會上提出。
它的字面意思是“終端客戶可方便獲取的硬盤可靠性指標(biāo)”,是一種讓用戶以極其簡單的方法獲取硬盤全方面參數(shù)的日志。
FARM的目的在于讓云計算用戶以此建立基于機器學(xué)習(xí)的健康監(jiān)控或者預(yù)測模型,以及實時直觀地獲取數(shù)據(jù)中心中每一塊硬盤的健康狀況。
在目前的硬盤運維實踐中,硬盤的數(shù)據(jù)采集主要基于SMART體系(Self-Monitoring Analysis and Reporting Technology,即自動檢測分析及報告技術(shù))。
它能分析并預(yù)警硬盤可能發(fā)生的問題。SMART體系自投入使用已有25年時間,可涵蓋10多項的參數(shù)。
FARM是對SMART體系的重大改良。FARM本身獲取方便,參數(shù)覆蓋廣,可以說是超級加強版的SMART。
FARM的120多項參數(shù)包含了硬盤更加底層的傳感器和磁頭級別的相關(guān)參數(shù),以及飛行高度、工作負載、環(huán)境等使用狀況的參數(shù),并且已經(jīng)在多個希捷產(chǎn)品上實施,給硬盤做詳細的“全身體檢”。
FARM的結(jié)構(gòu)簡單、數(shù)據(jù)量小,在抓取參數(shù)時,不會影響到系統(tǒng)本身在運轉(zhuǎn)的業(yè)務(wù)??蛻艨梢酝ㄟ^非常細的粒度按需抓取數(shù)據(jù),以自己所需的頻次獲取硬盤健康日志及大量數(shù)據(jù),并通過大數(shù)據(jù)建模,進行監(jiān)控和分析。
通過定期的FARM數(shù)據(jù)抓取,希捷與騰訊云基于云業(yè)務(wù)模型,利用定制機器學(xué)習(xí)算法,將硬盤健康度進行打分評估,提前識別高風(fēng)險硬盤,盡快采取措施,做業(yè)務(wù)遷移、風(fēng)險規(guī)劃等,避免極低概率下硬盤批量失效而導(dǎo)致業(yè)務(wù)中斷和數(shù)據(jù)丟失。
FARM都記錄些什么?
讓我們舉些例子:
硬盤信息:SN序列號、WWN全球唯一名字、容量等基本信息,以及磁頭數(shù)量、馬達等零部件的運行時間、最近一次的硬盤狀態(tài)等。
讀寫數(shù)據(jù)量:除讀寫LBA(邏輯區(qū)塊地址)數(shù)量之外,還包含按類別統(tǒng)計的讀寫命令數(shù)量(總數(shù),隨機命令數(shù),非讀寫命令數(shù)),以及最近幾個小時內(nèi)在磁碟不同區(qū)域的讀寫命令數(shù)量等。
錯誤統(tǒng)計:除記錄SMART已經(jīng)包含的錯誤處理數(shù)據(jù)之外,還包含固件內(nèi)部異常事件、讀寫重試、機構(gòu)部件重試等。同時對于不可恢復(fù)的錯誤,按照讀寫分別統(tǒng)計。
環(huán)境參數(shù):記錄外界環(huán)境相關(guān)參數(shù),除溫度之外,還包含濕度、5V/12V輸入電壓、馬達電壓等。
可靠性參數(shù):包含周期性及空閑時的后臺評估、IDD(In Drive Diagnostic)、偏心率、以及磁頭級別的底層參數(shù)——誤碼率、信道補償、尋道錯誤率、磁阻、飛行高度等。
騰訊云是國內(nèi)首家部署FARM的企業(yè)。
通過此項目,希捷聯(lián)合騰訊云對其數(shù)據(jù)中心的硬盤運行數(shù)據(jù)進行實時檢測,應(yīng)用大數(shù)據(jù)建模分析存在失效風(fēng)險的硬盤。
作為國內(nèi)領(lǐng)先的云服務(wù)提供商,騰訊云對系統(tǒng)的穩(wěn)定性和可靠性要求嚴苛。騰訊云與希捷合作,通過FARM定期對硬盤的健康數(shù)據(jù)抓取,實時監(jiān)控硬盤的健康狀態(tài)。
一旦發(fā)現(xiàn)有任何異常,便會及時采取措施,提醒客戶重新設(shè)計工作負載,未雨綢繆,保護關(guān)鍵業(yè)務(wù)的延續(xù)性。
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。