異軍突起的阿里云超算:與傳統(tǒng)超算中心共舞

來(lái)源: DOIT
作者:謝世誠(chéng)
時(shí)間:2020-10-21
17909
傳統(tǒng)超級(jí)計(jì)算機(jī)提供的更多是專(zhuān)用領(lǐng)域的“珠穆朗瑪峰”,高不可攀。阿里巴巴研究員、阿里云彈性計(jì)算負(fù)責(zé)人張獻(xiàn)濤說(shuō):“阿里云高性能計(jì)算平臺(tái)搭建的是‘青藏高原’,希望幫助更多行業(yè)用戶(hù)構(gòu)筑自己的‘珠穆朗瑪峰’,解決他們對(duì)于高性能計(jì)算和對(duì)算力的需求?!?/span>

超級(jí)云計(jì)算中心正在提供越來(lái)越多的超算服務(wù)。

目前,阿里云高性能計(jì)算平臺(tái)已覆蓋工業(yè)制造、生命科學(xué)、油氣勘探和影視特效等多個(gè)行業(yè),除了吉利和上汽等知名車(chē)企之外,還服務(wù)了流浪地球制作方MOREVFX等頂級(jí)視效企業(yè),并在新冠疫情期間公益支持了全球健康藥物研發(fā)中心(GHDDI)、中山大學(xué)等全球十多家醫(yī)療與科研機(jī)構(gòu)進(jìn)行新冠相關(guān)研發(fā)工作。

ia_4300000007.jpg

阿里巴巴研究員、阿里云彈性計(jì)算負(fù)責(zé)人張獻(xiàn)濤

傳統(tǒng)超級(jí)計(jì)算機(jī)提供的更多是專(zhuān)用領(lǐng)域的“珠穆朗瑪峰”,高不可攀。阿里巴巴研究員、阿里云彈性計(jì)算負(fù)責(zé)人張獻(xiàn)濤說(shuō):“阿里云高性能計(jì)算平臺(tái)搭建的是‘青藏高原’,希望幫助更多行業(yè)用戶(hù)構(gòu)筑自己的‘珠穆朗瑪峰’,解決他們對(duì)于高性能計(jì)算和對(duì)算力的需求?!?/span>

以“青藏高原”為底座,助力用戶(hù)構(gòu)建“珠穆朗瑪峰”

彈性計(jì)算是構(gòu)建算力的基礎(chǔ)設(shè)施,被張獻(xiàn)濤形象地描述為“就像青藏高原一樣”。

理論上,云計(jì)算就是把上百萬(wàn)臺(tái)的服務(wù)器構(gòu)建成一臺(tái)超級(jí)計(jì)算機(jī),提供統(tǒng)一的計(jì)算、統(tǒng)一的存儲(chǔ)和統(tǒng)一的網(wǎng)絡(luò)資源,實(shí)現(xiàn)更好的資源調(diào)度。

依托阿里云自研的神龍架構(gòu),用戶(hù)不再需要RDMA或IB網(wǎng)絡(luò),也無(wú)需采購(gòu)硬件設(shè)備,只需要在阿里云平臺(tái)發(fā)送一條命令,即可輕松構(gòu)建一臺(tái)虛擬服務(wù)器,或者是一個(gè)磁盤(pán),每個(gè)磁盤(pán)都具備100萬(wàn)IOPS且可獨(dú)立工作。神龍架構(gòu)就是阿里云構(gòu)建的云上超算能力的基礎(chǔ),在這上阿里云構(gòu)建了一個(gè)超級(jí)計(jì)算機(jī),可以是10臺(tái)、100臺(tái)、1000臺(tái)甚至5000臺(tái)的規(guī)模。用戶(hù)再發(fā)送一條OpenAPI指令,就可以獨(dú)享資源,非常的便捷。

據(jù)張獻(xiàn)濤介紹,阿里云還構(gòu)建了阿里云彈性高性能計(jì)算平臺(tái)PaaS調(diào)度平臺(tái),通過(guò)E-HPC調(diào)度系統(tǒng),用戶(hù)可以模塊式的方式讓所有任務(wù)獲得公共云上的數(shù)據(jù)庫(kù)或是存儲(chǔ)等各種能力。

ia_4300000008.jpg

阿里巴巴研究員、阿里云彈性計(jì)算負(fù)責(zé)人張獻(xiàn)濤接受媒體采訪(fǎng)

“彈性高性能計(jì)算平臺(tái)E-HPC,搭建了云和高性能計(jì)算應(yīng)用之間的橋梁?!睆埆I(xiàn)濤說(shuō)到,“阿里云高性能計(jì)算平臺(tái)覆蓋了絕大多數(shù)HPC的應(yīng)用場(chǎng)景,可以為更多有高性能計(jì)算需求的用戶(hù)提供更好的支持。”

那么,阿里云是如何做到的?

十年彈性計(jì)算探索之路

2010年5月,阿里云首個(gè)商業(yè)化的彈性計(jì)算產(chǎn)品ECS1.0面世,自此阿里云一直在探索未來(lái)彈性計(jì)算的核心技術(shù)方向。2014年之后,ECS產(chǎn)品進(jìn)行了三次大型升級(jí)迭代。

2014年,阿里云進(jìn)行了一個(gè)技術(shù)架構(gòu)的全面升級(jí),以滿(mǎn)足大型的互聯(lián)網(wǎng)應(yīng)用和高性能計(jì)算等業(yè)務(wù)需求,贏(yíng)得了微博、12306等客戶(hù)。

2016,阿里云開(kāi)始自研軟硬件協(xié)同設(shè)計(jì)的新虛擬化技術(shù),于2017年對(duì)外發(fā)布了首款自研神龍?jiān)品?wù)器,徹底解決了虛擬化性能損耗這一難題,不僅擁有超越物理機(jī)的性能,還擁有虛擬機(jī)的彈性體驗(yàn)。

2019年9月,阿里云宣布第三代自研神龍架構(gòu),全面支持ECS虛擬機(jī)、裸金屬、云原生容器等,貫穿整個(gè)IaaS計(jì)算平臺(tái),并在IOPS、PPS等方面提升5倍性能。

經(jīng)過(guò)十年來(lái)的不懈努力,阿里云的存儲(chǔ)性能提升了2000倍,網(wǎng)絡(luò)性能提升了500倍,整體算力平均每年翻一番。

目前,阿里云在全球的22個(gè)地域建立了63個(gè)大型數(shù)據(jù)中心,全球服務(wù)用戶(hù)已超過(guò)100萬(wàn)家;在中國(guó),80%的科技創(chuàng)新企業(yè)都運(yùn)行在阿里云平臺(tái)上。當(dāng)前,阿里云高性能計(jì)算平臺(tái)E-HPC已經(jīng)覆蓋了包括各種渲染、氣象、半導(dǎo)體、石油勘探等行業(yè)用戶(hù)。

Gartenr在最新報(bào)告中指出,阿里云的彈性計(jì)算以產(chǎn)品性能,穩(wěn)定性和服務(wù)質(zhì)量方面均超越了全球所有公司的水平位居世界第一。

可以說(shuō),阿里云重構(gòu)了計(jì)算和服務(wù)模式,具備了服務(wù)全業(yè)務(wù)場(chǎng)景的能力。

云超算為用戶(hù)提供了一種新選擇

有這樣一家大型汽車(chē)制造企業(yè),其業(yè)務(wù)要求業(yè)務(wù)系統(tǒng)能夠全年365天、全天24小時(shí)高速滿(mǎn)負(fù)荷運(yùn)轉(zhuǎn),而且業(yè)務(wù)還會(huì)時(shí)常調(diào)整,這樣的需求只有具備熱遷移、低成本主動(dòng)運(yùn)維以及高可靠、高穩(wěn)定性能力的云平臺(tái)才能滿(mǎn)足,傳統(tǒng)超算是很難滿(mǎn)足需求。

所以,云超算的問(wèn)世,給用戶(hù)帶來(lái)了新的選擇。

在阿里云高性能計(jì)算負(fù)責(zé)人何萬(wàn)青看來(lái),阿里云底層的技術(shù)很好地支撐并滿(mǎn)足了高性能計(jì)算用戶(hù)的苛刻需求,即使在計(jì)算資源利用率超過(guò)90%的情況下仍能穩(wěn)定運(yùn)行。

傳統(tǒng)超算中心,幾乎都是國(guó)家在投入,但是這些超算中心的服務(wù)質(zhì)量、性能等方面都有待提升,一方面是系統(tǒng)建設(shè)的速度趕不上用戶(hù)不斷更新的需求,另一方面,是前期巨額的投資難于收回成本,而且運(yùn)維成本也在不斷攀升。因此,越來(lái)越多的超算中心也在探索“超算云”的模式。

以阿里云為代表的商業(yè)公司,雖然難以建成與傳統(tǒng)超算中心匹敵的規(guī)模,但是其按需付費(fèi)、極致彈性、深入場(chǎng)景等一系列獨(dú)特的優(yōu)勢(shì),給超算領(lǐng)域注入了新的活力。

例如,傳統(tǒng)超算中心建設(shè)的時(shí)候,往往針對(duì)的是客戶(hù)當(dāng)下的需求,當(dāng)建成時(shí),客戶(hù)需求已經(jīng)發(fā)生變化,而且延期交工的超算中心也越來(lái)越多。此外,傳統(tǒng)超算中心大多是采用的是分時(shí)復(fù)用的系統(tǒng),客戶(hù)的應(yīng)用需求在提交后需要排隊(duì)等待,短則兩三天,長(zhǎng)則十天半個(gè)月。

ia_4300000009.jpg

阿里云高性能計(jì)算負(fù)責(zé)人何萬(wàn)青接受媒體采訪(fǎng)

商業(yè)化的云超算優(yōu)勢(shì)之一是隨時(shí)用隨時(shí)釋放,即用戶(hù)成功購(gòu)買(mǎi)后可獨(dú)占資源,為石油勘探、天氣預(yù)報(bào)等時(shí)效要求高的用戶(hù)提供穩(wěn)定的算力,資源隨時(shí)用、隨時(shí)伸縮、隨時(shí)釋放,降低使用成本。

遵從市場(chǎng)經(jīng)濟(jì)規(guī)律,云超算必須提供有領(lǐng)先的產(chǎn)品技術(shù)、便捷優(yōu)質(zhì)的服務(wù),才能具備發(fā)展?jié)摿?。目前,阿里云正在積極布局生態(tài)建設(shè),以服務(wù)好行業(yè)客戶(hù)。

未來(lái),云超算或?qū)⒊蔀橼厔?shì)。

三年斥資2000億元,發(fā)力新基建

今年年初,阿里云宣布未來(lái)三年還將投入2000億元,用于云操作系統(tǒng)、服務(wù)器、芯片、網(wǎng)絡(luò)等重大核心技術(shù)研發(fā)攻堅(jiān),并在現(xiàn)有張北、河源、杭州、南通和烏蘭察布等五大超級(jí)數(shù)據(jù)中心的基礎(chǔ)上,建立應(yīng)用了達(dá)摩院、平頭哥等最新研究成果,在規(guī)模、算力、節(jié)能、智能化方面全面升級(jí)10座以上的超級(jí)數(shù)據(jù)中心,支持新基建發(fā)展。

云超算中心與傳統(tǒng)超算中心共同服務(wù)客戶(hù)的局面,正在形成;受益者,將是眾多行業(yè)客戶(hù)。

立即登錄,閱讀全文
版權(quán)說(shuō)明:
本文內(nèi)容來(lái)自于DOIT,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀(guān)點(diǎn),不代表快出海對(duì)觀(guān)點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
相關(guān)文章
阿里云助力《誅仙世界》端游正式開(kāi)服!
阿里云助力《誅仙世界》端游正式開(kāi)服!
近?,完美世界游戲歷時(shí)多年打造的新國(guó)?仙俠MMORPG端游《誅仙世界》在阿?云上正式開(kāi)服。
阿里云
云服務(wù)
2024-12-292024-12-29
一文詳解阿里云AI大基建
一文詳解阿里云AI大基建
面向AI時(shí)代,阿里云基礎(chǔ)設(shè)施是如何創(chuàng)新與發(fā)展的?計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)、服務(wù)器、集群、可觀(guān)測(cè)等,阿里云全新升級(jí)的AI Infra到底有哪些重磅更新?
阿里云
云服務(wù)
2024-11-022024-11-02
AI時(shí)代云安全新范式,阿里云安全能力全線(xiàn)升級(jí)!
AI時(shí)代云安全新范式,阿里云安全能力全線(xiàn)升級(jí)!
AI時(shí)代,云安全面臨著新的挑戰(zhàn),不僅要持續(xù)面對(duì)以往的傳統(tǒng)問(wèn)題,更需要全新理念落地于產(chǎn)品設(shè)計(jì)、技術(shù)演進(jìn)、架構(gòu)設(shè)計(jì),才能實(shí)現(xiàn)效果、性能、和成本的最優(yōu)解。
AI
阿里云
云服務(wù)
2024-09-272024-09-27
連續(xù)四年!阿里云領(lǐng)跑中國(guó)公有云大數(shù)據(jù)平臺(tái)
連續(xù)四年!阿里云領(lǐng)跑中國(guó)公有云大數(shù)據(jù)平臺(tái)
近日,國(guó)際數(shù)據(jù)公司(IDC)發(fā)布《中國(guó)大數(shù)據(jù)平臺(tái)市場(chǎng)份額,2023:數(shù)智融合時(shí)代的真正到來(lái)》報(bào)告——2023年中國(guó)大數(shù)據(jù)平臺(tái)公有云服務(wù)市場(chǎng)規(guī)模達(dá)72.2億元人民幣,其中阿里巴巴市場(chǎng)份額保持領(lǐng)先,占比達(dá)40.2%,連續(xù)四年排名第一。
阿里云
云服務(wù)
2024-09-182024-09-18
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開(kāi)掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
個(gè)人VIP
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪(fǎng)
投稿采訪(fǎng)
出海管家
出海管家