2023年至2026年,全球在AI系統(tǒng)上的支出將翻一番,顯然,數(shù)據(jù)中心的容量將迅速增加,以滿足需求。
然而,令人驚訝的是,在過去的一年里,許多數(shù)據(jù)中心運(yùn)營商對新項(xiàng)目踩下了剎車,放緩了投資,倫敦的空置容量在2022-23年間下降了6.3%。
這種違反直覺的趨勢背后是什么原因?要解釋這一點(diǎn),我們需要了解圍繞AI計(jì)算和支持它的基礎(chǔ)設(shè)施的一些問題。
AI如何改變數(shù)據(jù)中心基礎(chǔ)設(shè)施
數(shù)據(jù)中心歷來是圍繞使用CPU的機(jī)架構(gòu)建的,以應(yīng)對傳統(tǒng)的計(jì)算工作負(fù)載,然而,AI計(jì)算轉(zhuǎn)而需要使用GPU驅(qū)動(dòng)機(jī)架,與同等的CPU容量相比,它消耗更多的電力,釋放更多的熱量,占用更多的空間。
在實(shí)踐中,這意味著AI計(jì)算能力通常需要更多的電源連接或替代冷卻系統(tǒng)。
由于這是嵌入式基礎(chǔ)設(shè)施,它被內(nèi)置到數(shù)據(jù)中心綜合體的結(jié)構(gòu)中——這使得更換它往往代價(jià)高昂,如果不是在經(jīng)濟(jì)上完全不可能的話。
在實(shí)踐中,運(yùn)營商必須承諾在他們的新數(shù)據(jù)中心中有多少空間專門用于AI和傳統(tǒng)計(jì)算之間的“分割”。
如果弄錯(cuò)了這一點(diǎn),并過度承諾AI,可能會(huì)讓數(shù)據(jù)中心運(yùn)營商背負(fù)著永久未充分利用和無利可圖的負(fù)擔(dān)。
AI市場還處于初級階段,這加劇了這個(gè)問題,Gartner聲稱,它目前正處于炒作周期中夸大預(yù)期的頂峰。因此,許多運(yùn)營商選擇在設(shè)計(jì)階段按兵不動(dòng),而不是過早承諾在新數(shù)據(jù)中心項(xiàng)目中承擔(dān)AI計(jì)算的比例。
在設(shè)計(jì)階段采取全面的方法
然而,運(yùn)營商敏銳地意識(shí)到,在失去市場份額和競爭優(yōu)勢之前,他們只能冒著推遲投資的風(fēng)險(xiǎn),但考慮到數(shù)據(jù)中心基礎(chǔ)設(shè)施的許多基本要素正在被實(shí)時(shí)重寫,這是一項(xiàng)艱巨的任務(wù)。
為了滿足成為先行者的需求,同時(shí)抵消風(fēng)險(xiǎn),運(yùn)營商需要將他們的數(shù)據(jù)中心設(shè)計(jì)為在AI計(jì)算時(shí)代具有最大的效率和彈性,這需要一種全新的整體設(shè)計(jì)方法。
1.讓更多利益相關(guān)者參與進(jìn)來
無論操作員決定AI和傳統(tǒng)計(jì)算之間的確切分離,具有AI計(jì)算能力的數(shù)據(jù)中心站點(diǎn)有望比傳統(tǒng)設(shè)施復(fù)雜得多。更復(fù)雜的往往意味著更多的故障點(diǎn),特別是在AI計(jì)算比傳統(tǒng)計(jì)算有更多需求的情況下。
因此,為了保證正常運(yùn)行時(shí)間并降低站點(diǎn)生命周期內(nèi)出現(xiàn)代價(jià)高昂的問題的風(fēng)險(xiǎn),團(tuán)隊(duì)需要在數(shù)據(jù)中心的規(guī)劃階段更加徹底。
特別是,設(shè)計(jì)階段應(yīng)在項(xiàng)目開始時(shí)尋求更廣泛的團(tuán)隊(duì)和專業(yè)知識(shí)的投入。除了尋求電力和冷卻方面的專業(yè)知識(shí)外,設(shè)計(jì)人員還應(yīng)該及早接觸運(yùn)營、布線和安全團(tuán)隊(duì),以了解潛在的瓶頸或故障來源。
2.將AI融入數(shù)據(jù)中心運(yùn)營
由于運(yùn)營商現(xiàn)在在現(xiàn)場進(jìn)行AI計(jì)算,他們應(yīng)該利用自己的能力來利用AI來提高運(yùn)營的新效率。AI在數(shù)據(jù)中心的采用已經(jīng)有很長時(shí)間了,這項(xiàng)技術(shù)能夠以極高的精度和質(zhì)量承擔(dān)工作流。例如,AI可以在以下方面提供幫助:
·溫度和濕度監(jiān)測。
·安全系統(tǒng)運(yùn)營。
·用電監(jiān)控和分配。
·硬件故障檢測和預(yù)測性維護(hù)。
通過在數(shù)據(jù)中心生命周期的每個(gè)階段主動(dòng)使用該技術(shù),運(yùn)營商可以顯著提高其運(yùn)營的效率和穩(wěn)健性。AI非常適合于幫助應(yīng)對采用這些新一代數(shù)據(jù)中心新穎而復(fù)雜的布局時(shí)遇到的新挑戰(zhàn),例如通過故障檢測和預(yù)測性維護(hù)。
3.避免虛假的節(jié)約
在高峰期,例如在培訓(xùn)運(yùn)行期間或在生產(chǎn)中運(yùn)行企業(yè)級模型時(shí),AI會(huì)給數(shù)據(jù)中心帶來更大的負(fù)載。在這些期間,AI計(jì)算在功耗、冷卻需求和數(shù)據(jù)吞吐量方面往往會(huì)大大超出傳統(tǒng)的預(yù)期。
在最基本的層面上,這意味著數(shù)據(jù)中心的底層材料面臨更大的壓力。如果這些底層材料或部件質(zhì)量不高,這意味著它們更容易失敗。由于AI計(jì)算意味著一個(gè)站點(diǎn)的組件和連接數(shù)量急劇增加,這意味著在傳統(tǒng)站點(diǎn)中運(yùn)行良好的更便宜、更低質(zhì)量的材料可能會(huì)使運(yùn)行AI計(jì)算的數(shù)據(jù)中心陷入停頓。
為此,運(yùn)營商應(yīng)該避免通過購買質(zhì)量較低的材料來節(jié)省資金,比如不合格的電纜。這樣做可能會(huì)帶來虛假的經(jīng)濟(jì)風(fēng)險(xiǎn),因?yàn)檫@些材料更容易失效,需要更頻繁地更換。但是,最有問題的是,不合格的材料和部件的故障往往會(huì)導(dǎo)致網(wǎng)站停機(jī)或停機(jī),從而影響其盈利能力。
解決基礎(chǔ)設(shè)施難題
盡管AI計(jì)算的基礎(chǔ)設(shè)施要求可能是運(yùn)營商拖延投資的主要原因,但從長遠(yuǎn)來看,情況并非如此。
隨著市場不確定性的消除,公司將在數(shù)據(jù)中心的傳統(tǒng)計(jì)算和AI計(jì)算之間的分裂問題上匯聚到他們的“適中區(qū)域”。
隨著這種情況的發(fā)生,公司將需要確保隨著他們的學(xué)習(xí)和成熟,他們在網(wǎng)站的運(yùn)營中擁有一切可能的優(yōu)勢。
這意味著從一開始就進(jìn)行整體設(shè)計(jì),利用AI本身來發(fā)現(xiàn)他們網(wǎng)站的新效率,并投資于能夠滿足更大的AI計(jì)算需求的高質(zhì)量組件。