異軍突起的阿里云超算:與傳統(tǒng)超算中心共舞

來源: DOIT
作者:謝世誠
時間:2020-10-21
17890
傳統(tǒng)超級計算機提供的更多是專用領域的“珠穆朗瑪峰”,高不可攀。阿里巴巴研究員、阿里云彈性計算負責人張獻濤說:“阿里云高性能計算平臺搭建的是‘青藏高原’,希望幫助更多行業(yè)用戶構(gòu)筑自己的‘珠穆朗瑪峰’,解決他們對于高性能計算和對算力的需求?!?/span>

超級云計算中心正在提供越來越多的超算服務。

目前,阿里云高性能計算平臺已覆蓋工業(yè)制造、生命科學、油氣勘探和影視特效等多個行業(yè),除了吉利和上汽等知名車企之外,還服務了流浪地球制作方MOREVFX等頂級視效企業(yè),并在新冠疫情期間公益支持了全球健康藥物研發(fā)中心(GHDDI)、中山大學等全球十多家醫(yī)療與科研機構(gòu)進行新冠相關研發(fā)工作。

ia_4300000007.jpg

阿里巴巴研究員、阿里云彈性計算負責人張獻濤

傳統(tǒng)超級計算機提供的更多是專用領域的“珠穆朗瑪峰”,高不可攀。阿里巴巴研究員、阿里云彈性計算負責人張獻濤說:“阿里云高性能計算平臺搭建的是‘青藏高原’,希望幫助更多行業(yè)用戶構(gòu)筑自己的‘珠穆朗瑪峰’,解決他們對于高性能計算和對算力的需求?!?/span>

以“青藏高原”為底座,助力用戶構(gòu)建“珠穆朗瑪峰”

彈性計算是構(gòu)建算力的基礎設施,被張獻濤形象地描述為“就像青藏高原一樣”。

理論上,云計算就是把上百萬臺的服務器構(gòu)建成一臺超級計算機,提供統(tǒng)一的計算、統(tǒng)一的存儲和統(tǒng)一的網(wǎng)絡資源,實現(xiàn)更好的資源調(diào)度。

依托阿里云自研的神龍架構(gòu),用戶不再需要RDMA或IB網(wǎng)絡,也無需采購硬件設備,只需要在阿里云平臺發(fā)送一條命令,即可輕松構(gòu)建一臺虛擬服務器,或者是一個磁盤,每個磁盤都具備100萬IOPS且可獨立工作。神龍架構(gòu)就是阿里云構(gòu)建的云上超算能力的基礎,在這上阿里云構(gòu)建了一個超級計算機,可以是10臺、100臺、1000臺甚至5000臺的規(guī)模。用戶再發(fā)送一條OpenAPI指令,就可以獨享資源,非常的便捷。

據(jù)張獻濤介紹,阿里云還構(gòu)建了阿里云彈性高性能計算平臺PaaS調(diào)度平臺,通過E-HPC調(diào)度系統(tǒng),用戶可以模塊式的方式讓所有任務獲得公共云上的數(shù)據(jù)庫或是存儲等各種能力。

ia_4300000008.jpg

阿里巴巴研究員、阿里云彈性計算負責人張獻濤接受媒體采訪

“彈性高性能計算平臺E-HPC,搭建了云和高性能計算應用之間的橋梁?!睆埆I濤說到,“阿里云高性能計算平臺覆蓋了絕大多數(shù)HPC的應用場景,可以為更多有高性能計算需求的用戶提供更好的支持?!?/span>

那么,阿里云是如何做到的?

十年彈性計算探索之路

2010年5月,阿里云首個商業(yè)化的彈性計算產(chǎn)品ECS1.0面世,自此阿里云一直在探索未來彈性計算的核心技術(shù)方向。2014年之后,ECS產(chǎn)品進行了三次大型升級迭代。

2014年,阿里云進行了一個技術(shù)架構(gòu)的全面升級,以滿足大型的互聯(lián)網(wǎng)應用和高性能計算等業(yè)務需求,贏得了微博、12306等客戶。

2016,阿里云開始自研軟硬件協(xié)同設計的新虛擬化技術(shù),于2017年對外發(fā)布了首款自研神龍云服務器,徹底解決了虛擬化性能損耗這一難題,不僅擁有超越物理機的性能,還擁有虛擬機的彈性體驗。

2019年9月,阿里云宣布第三代自研神龍架構(gòu),全面支持ECS虛擬機、裸金屬、云原生容器等,貫穿整個IaaS計算平臺,并在IOPS、PPS等方面提升5倍性能。

經(jīng)過十年來的不懈努力,阿里云的存儲性能提升了2000倍,網(wǎng)絡性能提升了500倍,整體算力平均每年翻一番。

目前,阿里云在全球的22個地域建立了63個大型數(shù)據(jù)中心,全球服務用戶已超過100萬家;在中國,80%的科技創(chuàng)新企業(yè)都運行在阿里云平臺上。當前,阿里云高性能計算平臺E-HPC已經(jīng)覆蓋了包括各種渲染、氣象、半導體、石油勘探等行業(yè)用戶。

Gartenr在最新報告中指出,阿里云的彈性計算以產(chǎn)品性能,穩(wěn)定性和服務質(zhì)量方面均超越了全球所有公司的水平位居世界第一。

可以說,阿里云重構(gòu)了計算和服務模式,具備了服務全業(yè)務場景的能力。

云超算為用戶提供了一種新選擇

有這樣一家大型汽車制造企業(yè),其業(yè)務要求業(yè)務系統(tǒng)能夠全年365天、全天24小時高速滿負荷運轉(zhuǎn),而且業(yè)務還會時常調(diào)整,這樣的需求只有具備熱遷移、低成本主動運維以及高可靠、高穩(wěn)定性能力的云平臺才能滿足,傳統(tǒng)超算是很難滿足需求。

所以,云超算的問世,給用戶帶來了新的選擇。

在阿里云高性能計算負責人何萬青看來,阿里云底層的技術(shù)很好地支撐并滿足了高性能計算用戶的苛刻需求,即使在計算資源利用率超過90%的情況下仍能穩(wěn)定運行。

傳統(tǒng)超算中心,幾乎都是國家在投入,但是這些超算中心的服務質(zhì)量、性能等方面都有待提升,一方面是系統(tǒng)建設的速度趕不上用戶不斷更新的需求,另一方面,是前期巨額的投資難于收回成本,而且運維成本也在不斷攀升。因此,越來越多的超算中心也在探索“超算云”的模式。

以阿里云為代表的商業(yè)公司,雖然難以建成與傳統(tǒng)超算中心匹敵的規(guī)模,但是其按需付費、極致彈性、深入場景等一系列獨特的優(yōu)勢,給超算領域注入了新的活力。

例如,傳統(tǒng)超算中心建設的時候,往往針對的是客戶當下的需求,當建成時,客戶需求已經(jīng)發(fā)生變化,而且延期交工的超算中心也越來越多。此外,傳統(tǒng)超算中心大多是采用的是分時復用的系統(tǒng),客戶的應用需求在提交后需要排隊等待,短則兩三天,長則十天半個月。

ia_4300000009.jpg

阿里云高性能計算負責人何萬青接受媒體采訪

商業(yè)化的云超算優(yōu)勢之一是隨時用隨時釋放,即用戶成功購買后可獨占資源,為石油勘探、天氣預報等時效要求高的用戶提供穩(wěn)定的算力,資源隨時用、隨時伸縮、隨時釋放,降低使用成本。

遵從市場經(jīng)濟規(guī)律,云超算必須提供有領先的產(chǎn)品技術(shù)、便捷優(yōu)質(zhì)的服務,才能具備發(fā)展?jié)摿?。目前,阿里云正在積極布局生態(tài)建設,以服務好行業(yè)客戶。

未來,云超算或?qū)⒊蔀橼厔荨?/span>

三年斥資2000億元,發(fā)力新基建

今年年初,阿里云宣布未來三年還將投入2000億元,用于云操作系統(tǒng)、服務器、芯片、網(wǎng)絡等重大核心技術(shù)研發(fā)攻堅,并在現(xiàn)有張北、河源、杭州、南通和烏蘭察布等五大超級數(shù)據(jù)中心的基礎上,建立應用了達摩院、平頭哥等最新研究成果,在規(guī)模、算力、節(jié)能、智能化方面全面升級10座以上的超級數(shù)據(jù)中心,支持新基建發(fā)展。

云超算中心與傳統(tǒng)超算中心共同服務客戶的局面,正在形成;受益者,將是眾多行業(yè)客戶。

立即登錄,閱讀全文
版權(quán)說明:
本文內(nèi)容來自于DOIT,本站不擁有所有權(quán),不承擔相關法律責任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務商推薦
更多