AI如何改變數(shù)據(jù)中心設計

來源:企業(yè)網D1Net
作者:Niklas Lindqvist
時間:2023-10-13
1790
2023年至2026年,全球在AI系統(tǒng)上的支出將翻一番,顯然,數(shù)據(jù)中心的容量將迅速增加,以滿足需求。

ghdfdf.jpg

2023年至2026年,全球在AI系統(tǒng)上的支出將翻一番,顯然,數(shù)據(jù)中心的容量將迅速增加,以滿足需求。

然而,令人驚訝的是,在過去的一年里,許多數(shù)據(jù)中心運營商對新項目踩下了剎車,放緩了投資,倫敦的空置容量在2022-23年間下降了6.3%。

這種違反直覺的趨勢背后是什么原因?要解釋這一點,我們需要了解圍繞AI計算和支持它的基礎設施的一些問題。

AI如何改變數(shù)據(jù)中心基礎設施

數(shù)據(jù)中心歷來是圍繞使用CPU的機架構建的,以應對傳統(tǒng)的計算工作負載,然而,AI計算轉而需要使用GPU驅動機架,與同等的CPU容量相比,它消耗更多的電力,釋放更多的熱量,占用更多的空間。

在實踐中,這意味著AI計算能力通常需要更多的電源連接或替代冷卻系統(tǒng)。

由于這是嵌入式基礎設施,它被內置到數(shù)據(jù)中心綜合體的結構中——這使得更換它往往代價高昂,如果不是在經濟上完全不可能的話。

在實踐中,運營商必須承諾在他們的新數(shù)據(jù)中心中有多少空間專門用于AI和傳統(tǒng)計算之間的“分割”。

如果弄錯了這一點,并過度承諾AI,可能會讓數(shù)據(jù)中心運營商背負著永久未充分利用和無利可圖的負擔。

AI市場還處于初級階段,這加劇了這個問題,Gartner聲稱,它目前正處于炒作周期中夸大預期的頂峰。因此,許多運營商選擇在設計階段按兵不動,而不是過早承諾在新數(shù)據(jù)中心項目中承擔AI計算的比例。

在設計階段采取全面的方法

然而,運營商敏銳地意識到,在失去市場份額和競爭優(yōu)勢之前,他們只能冒著推遲投資的風險,但考慮到數(shù)據(jù)中心基礎設施的許多基本要素正在被實時重寫,這是一項艱巨的任務。

為了滿足成為先行者的需求,同時抵消風險,運營商需要將他們的數(shù)據(jù)中心設計為在AI計算時代具有最大的效率和彈性,這需要一種全新的整體設計方法。

1.讓更多利益相關者參與進來

無論操作員決定AI和傳統(tǒng)計算之間的確切分離,具有AI計算能力的數(shù)據(jù)中心站點有望比傳統(tǒng)設施復雜得多。更復雜的往往意味著更多的故障點,特別是在AI計算比傳統(tǒng)計算有更多需求的情況下。

因此,為了保證正常運行時間并降低站點生命周期內出現(xiàn)代價高昂的問題的風險,團隊需要在數(shù)據(jù)中心的規(guī)劃階段更加徹底。

特別是,設計階段應在項目開始時尋求更廣泛的團隊和專業(yè)知識的投入。除了尋求電力和冷卻方面的專業(yè)知識外,設計人員還應該及早接觸運營、布線和安全團隊,以了解潛在的瓶頸或故障來源。

2.將AI融入數(shù)據(jù)中心運營

由于運營商現(xiàn)在在現(xiàn)場進行AI計算,他們應該利用自己的能力來利用AI來提高運營的新效率。AI在數(shù)據(jù)中心的采用已經有很長時間了,這項技術能夠以極高的精度和質量承擔工作流。例如,AI可以在以下方面提供幫助:

·溫度和濕度監(jiān)測。

·安全系統(tǒng)運營。

·用電監(jiān)控和分配。

·硬件故障檢測和預測性維護。

通過在數(shù)據(jù)中心生命周期的每個階段主動使用該技術,運營商可以顯著提高其運營的效率和穩(wěn)健性。AI非常適合于幫助應對采用這些新一代數(shù)據(jù)中心新穎而復雜的布局時遇到的新挑戰(zhàn),例如通過故障檢測和預測性維護。

3.避免虛假的節(jié)約

在高峰期,例如在培訓運行期間或在生產中運行企業(yè)級模型時,AI會給數(shù)據(jù)中心帶來更大的負載。在這些期間,AI計算在功耗、冷卻需求和數(shù)據(jù)吞吐量方面往往會大大超出傳統(tǒng)的預期。

在最基本的層面上,這意味著數(shù)據(jù)中心的底層材料面臨更大的壓力。如果這些底層材料或部件質量不高,這意味著它們更容易失敗。由于AI計算意味著一個站點的組件和連接數(shù)量急劇增加,這意味著在傳統(tǒng)站點中運行良好的更便宜、更低質量的材料可能會使運行AI計算的數(shù)據(jù)中心陷入停頓。

為此,運營商應該避免通過購買質量較低的材料來節(jié)省資金,比如不合格的電纜。這樣做可能會帶來虛假的經濟風險,因為這些材料更容易失效,需要更頻繁地更換。但是,最有問題的是,不合格的材料和部件的故障往往會導致網站停機或停機,從而影響其盈利能力。

解決基礎設施難題

盡管AI計算的基礎設施要求可能是運營商拖延投資的主要原因,但從長遠來看,情況并非如此。

隨著市場不確定性的消除,公司將在數(shù)據(jù)中心的傳統(tǒng)計算和AI計算之間的分裂問題上匯聚到他們的“適中區(qū)域”。

隨著這種情況的發(fā)生,公司將需要確保隨著他們的學習和成熟,他們在網站的運營中擁有一切可能的優(yōu)勢。

這意味著從一開始就進行整體設計,利用AI本身來發(fā)現(xiàn)他們網站的新效率,并投資于能夠滿足更大的AI計算需求的高質量組件。

立即登錄,閱讀全文
原文鏈接:點擊前往 >
文章來源:企業(yè)網D1Net
版權說明:本文內容來自于企業(yè)網D1Net,本站不擁有所有權,不承擔相關法律責任。文章內容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權,請聯(lián)系管理員(zzx@kchuhai.com)刪除!
掃碼關注
獲取更多出海資訊的相關信息
優(yōu)質服務商推薦
更多
掃碼登錄
打開掃一掃, 關注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務合作
商務合作
投稿采訪
投稿采訪
出海管家
出海管家