超級(jí)云計(jì)算中心正在提供越來(lái)越多的超算服務(wù)。
目前,阿里云高性能計(jì)算平臺(tái)已覆蓋工業(yè)制造、生命科學(xué)、油氣勘探和影視特效等多個(gè)行業(yè),除了吉利和上汽等知名車(chē)企之外,還服務(wù)了流浪地球制作方MOREVFX等頂級(jí)視效企業(yè),并在新冠疫情期間公益支持了全球健康藥物研發(fā)中心(GHDDI)、中山大學(xué)等全球十多家醫(yī)療與科研機(jī)構(gòu)進(jìn)行新冠相關(guān)研發(fā)工作。
阿里巴巴研究員、阿里云彈性計(jì)算負(fù)責(zé)人張獻(xiàn)濤
傳統(tǒng)超級(jí)計(jì)算機(jī)提供的更多是專(zhuān)用領(lǐng)域的“珠穆朗瑪峰”,高不可攀。阿里巴巴研究員、阿里云彈性計(jì)算負(fù)責(zé)人張獻(xiàn)濤說(shuō):“阿里云高性能計(jì)算平臺(tái)搭建的是‘青藏高原’,希望幫助更多行業(yè)用戶(hù)構(gòu)筑自己的‘珠穆朗瑪峰’,解決他們對(duì)于高性能計(jì)算和對(duì)算力的需求?!?/span>
以“青藏高原”為底座,助力用戶(hù)構(gòu)建“珠穆朗瑪峰”
彈性計(jì)算是構(gòu)建算力的基礎(chǔ)設(shè)施,被張獻(xiàn)濤形象地描述為“就像青藏高原一樣”。
理論上,云計(jì)算就是把上百萬(wàn)臺(tái)的服務(wù)器構(gòu)建成一臺(tái)超級(jí)計(jì)算機(jī),提供統(tǒng)一的計(jì)算、統(tǒng)一的存儲(chǔ)和統(tǒng)一的網(wǎng)絡(luò)資源,實(shí)現(xiàn)更好的資源調(diào)度。
依托阿里云自研的神龍架構(gòu),用戶(hù)不再需要RDMA或IB網(wǎng)絡(luò),也無(wú)需采購(gòu)硬件設(shè)備,只需要在阿里云平臺(tái)發(fā)送一條命令,即可輕松構(gòu)建一臺(tái)虛擬服務(wù)器,或者是一個(gè)磁盤(pán),每個(gè)磁盤(pán)都具備100萬(wàn)IOPS且可獨(dú)立工作。神龍架構(gòu)就是阿里云構(gòu)建的云上超算能力的基礎(chǔ),在這上阿里云構(gòu)建了一個(gè)超級(jí)計(jì)算機(jī),可以是10臺(tái)、100臺(tái)、1000臺(tái)甚至5000臺(tái)的規(guī)模。用戶(hù)再發(fā)送一條OpenAPI指令,就可以獨(dú)享資源,非常的便捷。
據(jù)張獻(xiàn)濤介紹,阿里云還構(gòu)建了阿里云彈性高性能計(jì)算平臺(tái)PaaS調(diào)度平臺(tái),通過(guò)E-HPC調(diào)度系統(tǒng),用戶(hù)可以模塊式的方式讓所有任務(wù)獲得公共云上的數(shù)據(jù)庫(kù)或是存儲(chǔ)等各種能力。
阿里巴巴研究員、阿里云彈性計(jì)算負(fù)責(zé)人張獻(xiàn)濤接受媒體采訪(fǎng)
“彈性高性能計(jì)算平臺(tái)E-HPC,搭建了云和高性能計(jì)算應(yīng)用之間的橋梁?!睆埆I(xiàn)濤說(shuō)到,“阿里云高性能計(jì)算平臺(tái)覆蓋了絕大多數(shù)HPC的應(yīng)用場(chǎng)景,可以為更多有高性能計(jì)算需求的用戶(hù)提供更好的支持。”
那么,阿里云是如何做到的?
十年彈性計(jì)算探索之路
2010年5月,阿里云首個(gè)商業(yè)化的彈性計(jì)算產(chǎn)品ECS1.0面世,自此阿里云一直在探索未來(lái)彈性計(jì)算的核心技術(shù)方向。2014年之后,ECS產(chǎn)品進(jìn)行了三次大型升級(jí)迭代。
2014年,阿里云進(jìn)行了一個(gè)技術(shù)架構(gòu)的全面升級(jí),以滿(mǎn)足大型的互聯(lián)網(wǎng)應(yīng)用和高性能計(jì)算等業(yè)務(wù)需求,贏(yíng)得了微博、12306等客戶(hù)。
2016,阿里云開(kāi)始自研軟硬件協(xié)同設(shè)計(jì)的新虛擬化技術(shù),于2017年對(duì)外發(fā)布了首款自研神龍?jiān)品?wù)器,徹底解決了虛擬化性能損耗這一難題,不僅擁有超越物理機(jī)的性能,還擁有虛擬機(jī)的彈性體驗(yàn)。
2019年9月,阿里云宣布第三代自研神龍架構(gòu),全面支持ECS虛擬機(jī)、裸金屬、云原生容器等,貫穿整個(gè)IaaS計(jì)算平臺(tái),并在IOPS、PPS等方面提升5倍性能。
經(jīng)過(guò)十年來(lái)的不懈努力,阿里云的存儲(chǔ)性能提升了2000倍,網(wǎng)絡(luò)性能提升了500倍,整體算力平均每年翻一番。
目前,阿里云在全球的22個(gè)地域建立了63個(gè)大型數(shù)據(jù)中心,全球服務(wù)用戶(hù)已超過(guò)100萬(wàn)家;在中國(guó),80%的科技創(chuàng)新企業(yè)都運(yùn)行在阿里云平臺(tái)上。當(dāng)前,阿里云高性能計(jì)算平臺(tái)E-HPC已經(jīng)覆蓋了包括各種渲染、氣象、半導(dǎo)體、石油勘探等行業(yè)用戶(hù)。
Gartenr在最新報(bào)告中指出,阿里云的彈性計(jì)算以產(chǎn)品性能,穩(wěn)定性和服務(wù)質(zhì)量方面均超越了全球所有公司的水平位居世界第一。
可以說(shuō),阿里云重構(gòu)了計(jì)算和服務(wù)模式,具備了服務(wù)全業(yè)務(wù)場(chǎng)景的能力。
云超算為用戶(hù)提供了一種新選擇
有這樣一家大型汽車(chē)制造企業(yè),其業(yè)務(wù)要求業(yè)務(wù)系統(tǒng)能夠全年365天、全天24小時(shí)高速滿(mǎn)負(fù)荷運(yùn)轉(zhuǎn),而且業(yè)務(wù)還會(huì)時(shí)常調(diào)整,這樣的需求只有具備熱遷移、低成本主動(dòng)運(yùn)維以及高可靠、高穩(wěn)定性能力的云平臺(tái)才能滿(mǎn)足,傳統(tǒng)超算是很難滿(mǎn)足需求。
所以,云超算的問(wèn)世,給用戶(hù)帶來(lái)了新的選擇。
在阿里云高性能計(jì)算負(fù)責(zé)人何萬(wàn)青看來(lái),阿里云底層的技術(shù)很好地支撐并滿(mǎn)足了高性能計(jì)算用戶(hù)的苛刻需求,即使在計(jì)算資源利用率超過(guò)90%的情況下仍能穩(wěn)定運(yùn)行。
傳統(tǒng)超算中心,幾乎都是國(guó)家在投入,但是這些超算中心的服務(wù)質(zhì)量、性能等方面都有待提升,一方面是系統(tǒng)建設(shè)的速度趕不上用戶(hù)不斷更新的需求,另一方面,是前期巨額的投資難于收回成本,而且運(yùn)維成本也在不斷攀升。因此,越來(lái)越多的超算中心也在探索“超算云”的模式。
以阿里云為代表的商業(yè)公司,雖然難以建成與傳統(tǒng)超算中心匹敵的規(guī)模,但是其按需付費(fèi)、極致彈性、深入場(chǎng)景等一系列獨(dú)特的優(yōu)勢(shì),給超算領(lǐng)域注入了新的活力。
例如,傳統(tǒng)超算中心建設(shè)的時(shí)候,往往針對(duì)的是客戶(hù)當(dāng)下的需求,當(dāng)建成時(shí),客戶(hù)需求已經(jīng)發(fā)生變化,而且延期交工的超算中心也越來(lái)越多。此外,傳統(tǒng)超算中心大多是采用的是分時(shí)復(fù)用的系統(tǒng),客戶(hù)的應(yīng)用需求在提交后需要排隊(duì)等待,短則兩三天,長(zhǎng)則十天半個(gè)月。
阿里云高性能計(jì)算負(fù)責(zé)人何萬(wàn)青接受媒體采訪(fǎng)
商業(yè)化的云超算優(yōu)勢(shì)之一是隨時(shí)用隨時(shí)釋放,即用戶(hù)成功購(gòu)買(mǎi)后可獨(dú)占資源,為石油勘探、天氣預(yù)報(bào)等時(shí)效要求高的用戶(hù)提供穩(wěn)定的算力,資源隨時(shí)用、隨時(shí)伸縮、隨時(shí)釋放,降低使用成本。
遵從市場(chǎng)經(jīng)濟(jì)規(guī)律,云超算必須提供有領(lǐng)先的產(chǎn)品技術(shù)、便捷優(yōu)質(zhì)的服務(wù),才能具備發(fā)展?jié)摿?。目前,阿里云正在積極布局生態(tài)建設(shè),以服務(wù)好行業(yè)客戶(hù)。
未來(lái),云超算或?qū)⒊蔀橼厔?shì)。
三年斥資2000億元,發(fā)力新基建
今年年初,阿里云宣布未來(lái)三年還將投入2000億元,用于云操作系統(tǒng)、服務(wù)器、芯片、網(wǎng)絡(luò)等重大核心技術(shù)研發(fā)攻堅(jiān),并在現(xiàn)有張北、河源、杭州、南通和烏蘭察布等五大超級(jí)數(shù)據(jù)中心的基礎(chǔ)上,建立應(yīng)用了達(dá)摩院、平頭哥等最新研究成果,在規(guī)模、算力、節(jié)能、智能化方面全面升級(jí)10座以上的超級(jí)數(shù)據(jù)中心,支持新基建發(fā)展。
云超算中心與傳統(tǒng)超算中心共同服務(wù)客戶(hù)的局面,正在形成;受益者,將是眾多行業(yè)客戶(hù)。