引言
當(dāng)前,我們正處在一個(gè)“數(shù)據(jù)智能”的時(shí)代,數(shù)據(jù)呈指數(shù)級增長,數(shù)字化、智能化轉(zhuǎn)型已是企業(yè)創(chuàng)新和高質(zhì)量發(fā)展的基石。在數(shù)據(jù)為王的時(shí)代,如何讓數(shù)據(jù)產(chǎn)生價(jià)值,讓數(shù)據(jù)說話,讓數(shù)據(jù)輔助決策呢?數(shù)據(jù)變寶任重而道遠(yuǎn),只有借助于高性能計(jì)算(HPC)和人工智能(AI),數(shù)據(jù)才能淋漓盡致的綻放其價(jià)值。而在分布式的HPC集群的工作負(fù)載運(yùn)行中,調(diào)度是“大腦中樞”,無調(diào)度不成超算。
IBM Spectrum LSF(Load Sharing Facility,下文稱LSF)給分布式高性能計(jì)算系統(tǒng)注入靈魂,強(qiáng)有力地把分布在不同地方的算力組織起來,猶如萬劍歸一,凝心聚力,以實(shí)時(shí)的算力監(jiān)控和優(yōu)越的調(diào)度性能,在最短的時(shí)間內(nèi)完成工作負(fù)載的調(diào)度和執(zhí)行。
LSF橫空出世并一往直前
站在今天看過去,分布式高性能計(jì)算一直是IT行業(yè)的熱門話題。就是算力強(qiáng)悍的今天,大型機(jī)(比如IBM Z系列)已經(jīng)承載了一些核心的業(yè)務(wù),但一些其他的應(yīng)用和作業(yè),無福享受到強(qiáng)悍的大型機(jī)的伺候,更何況把目光往前推20多年,單個(gè)主機(jī)很難滿足應(yīng)用作業(yè)的需求,那怎么辦呢?最直接的方式就是把一群機(jī)器組織起來,并行干活。如果有一把絕世寶劍,來統(tǒng)一號令集群協(xié)同工作,只要調(diào)度得當(dāng),完全有可能實(shí)現(xiàn)“機(jī)心齊,泰山移”。
在這種背景下,LSF于1992年橫空出世。到今天,LSF已經(jīng)走過了29個(gè)年頭。在這29年的發(fā)展中,新的技術(shù)層出不窮,用戶的需求也在不斷變化,經(jīng)過LSF研發(fā)團(tuán)隊(duì)的精益求精和不懈努力,LSF已經(jīng)發(fā)展成為HPC分布式集群的“瑞士軍刀”,擁有高性能的大規(guī)模分布式集群管理和調(diào)度能力。近日在中國,LSF被IBM中國團(tuán)隊(duì)創(chuàng)業(yè)成長計(jì)劃“12星座”冠以“白羊座”黑科技產(chǎn)品,算是名至所歸。29歲,LSF正當(dāng)壯年!
那么LSF到底是什么呢?LSF是一個(gè)強(qiáng)大的分布式工作負(fù)載管理平臺,基于智能的、策略驅(qū)動的調(diào)度特性,充分利用計(jì)算基礎(chǔ)設(shè)施資源,實(shí)現(xiàn)最佳的應(yīng)用程序性能。一言以蔽之,LSF在正確的時(shí)間內(nèi),將正確的資源分配給正確的用戶作業(yè)。LSF旨在降低企業(yè)運(yùn)營成本的同時(shí),提高生產(chǎn)效率。LSF構(gòu)架圖如下。
經(jīng)過二十多年的發(fā)展,相對于最初的LSF 1.0版本,最新的LSF 10.1,不管是功能上,還是性能上,都得到了質(zhì)的飛躍。LSF從最初簡單的調(diào)度器,發(fā)展到今天豐富多彩的調(diào)度“航母”,不僅后向兼容,而且不斷創(chuàng)新,支持層出不群的新技術(shù)和新平臺,比如支持GPU和Kubernetes等,也支持機(jī)器學(xué)習(xí)的平臺和作業(yè),AI賦能,發(fā)展出了很多周邊產(chǎn)品,一往無前的創(chuàng)新和完善的功能,讓29歲的LSF成為了妥妥的“黑科技”。
在分布式管理和調(diào)度方面,LSF的功能可謂應(yīng)有盡有,僅僅調(diào)度策略,就有數(shù)十種,比如先來先服務(wù)(FCFS)、搶占(Preemption)、資源需求(Resource Requirement)、公開共享(Fair share Scheduling)、服務(wù)水平的資源保障(Guarantee SLA)、資源預(yù)訂(Resource Reservations)、回填調(diào)度(Backfill Scheduling)、親和調(diào)度(Affinity Scheduling)等。
LSF不光支持CPU等常見算力,而且也支持GPU調(diào)度。同時(shí)支持多集群調(diào)度,塊調(diào)度、作業(yè)動態(tài)調(diào)度、許可證(License)調(diào)度,基于事件的調(diào)度、計(jì)算單元和作業(yè)包裝、作業(yè)開始時(shí)間預(yù)測等功能。
LSF也支持容器化的應(yīng)用的調(diào)度,LSF可作為Kubernetes集群的熱插拔調(diào)度器,根據(jù)策略將Pod綁定到特定節(jié)點(diǎn),由Kubelet在目標(biāo)節(jié)點(diǎn)上執(zhí)行和管理Pod生命周期,HPC作業(yè)可以在不影響Kubernetes Pods的情況下提交和執(zhí)行。
同時(shí),LSF支持混合云策略,LSF有一個(gè)非常受歡迎的功能:Resource Connector。如果在作業(yè)激增的情況下,等待作業(yè)較多,本地資源不足的情況下,Resource Connector可以迅速的向公有云或者私有云申請資源,然后基于智能化的策略,把作業(yè)調(diào)度到云端資源上執(zhí)行。如果業(yè)務(wù)量下降了,根據(jù)預(yù)設(shè)的門限,即刻釋放云端資源。這種可伸縮性,有效的提高計(jì)算效率的同時(shí),為客戶節(jié)省了費(fèi)用,真是魚和熊掌二者兼得也!
在HPC集群中,性能非常重要,在LSF 10版本中,實(shí)現(xiàn)了無與倫比的大規(guī)模高性能,并且包含了很多創(chuàng)新性功能,提高了易用性和可訪問性。LSF 10支持?jǐn)?shù)以千計(jì)的并發(fā)用戶數(shù),同時(shí)管理數(shù)以萬計(jì)的節(jié)點(diǎn)資源,同時(shí)調(diào)度數(shù)以百萬計(jì)的作業(yè)。通過IO模式優(yōu)化、將數(shù)據(jù)移到更靠近作業(yè)的地方、處理器間通信的優(yōu)化等方法,來提高作業(yè)的吞吐量性能。在LSF 10的Benchmark測試中,LSF可以在每小時(shí)調(diào)度分發(fā)9百萬的作業(yè)(超短作業(yè))。在另外一組測試環(huán)境中,在100,000個(gè)Slots的LSF集群,縱向?qū)Ρ攘薒SF的性能提升,從圖中我們可以看是LSF 10的性能得到了大幅提升。
LSF的小伙伴們
俗話說,一個(gè)好漢三個(gè)幫。LSF的核心的功能是根據(jù)集群的資源情況對作業(yè)進(jìn)行調(diào)度和分發(fā),到今天,LSF已經(jīng)發(fā)展出了一個(gè)大的家族,LSF更像是一個(gè)家長,以“帶頭大哥”的身份帶領(lǐng)其家族的小伙伴們,為客戶降低運(yùn)營成本,提高生產(chǎn)率。具體看,LSF家族的核心價(jià)值有:
·通過有效的調(diào)度和共享策略提高資產(chǎn)利用率
·通過易用性、易訪問性和簡化來提高用戶的工作效率
·通過洞察如何使用HPC環(huán)境來提高操作效率
下面有請LSF家族中幾位主要的小伙伴們亮相:
01 LSF AC(Application Center)
LSF AC是LSF的Web Portal。作為是LSF家族中“大師兄”,為集群用戶和管理員提供了靈活、易用的界面,使用戶能夠直觀的和LSF集群進(jìn)行交互。有了LSF AC,媽媽再也不用擔(dān)心程序員小明記不住復(fù)雜的LSF后臺命令了!用戶可以通過Web瀏覽器輕松愉快的完成作業(yè)的基本操作,如停止、暫停、恢復(fù)或重新排隊(duì)作業(yè),也可以在Web界面監(jiān)控作業(yè)的運(yùn)行情況。同時(shí),LSF AC有很多應(yīng)用程序的模板和腳本指南,這些模板和指南,很好的簡化了作業(yè)提交,很大程度上降低用戶的操作錯誤概率。
LSF AC不光有電腦客戶端,也支持手機(jī)客戶端,用戶隨時(shí)隨地的掌握作業(yè)的運(yùn)行狀態(tài)和資源情況。
02 LSF PM(Process Manager)
在一些LSF的應(yīng)用場景中,很多作業(yè)之間有依賴關(guān)系,特別是近幾年來的容器化,微服務(wù)化,并行化作業(yè)愈發(fā)盛行,面對錯綜復(fù)雜的作業(yè)依賴關(guān)系,如果沒有一套流水線的管理工具,那對于這些用戶來說,簡直就是災(zāi)難。LSF PM就是肩負(fù)著這個(gè)使命而誕生的,使用這個(gè)流水線工具,LSF用戶可以在提交作業(yè)前,圖形化的勾勒出作業(yè)的先后順序和驅(qū)動事件,然后再提交執(zhí)行。使用直觀的圖形界面記錄和查看工作流步驟和執(zhí)行情況,允許用戶自動執(zhí)行容易出現(xiàn)人為錯誤的、或者冗長重復(fù)任務(wù)。
同時(shí),用戶可以通過LSF PM設(shè)置一些驅(qū)動事件,比如文件事件(比如文件產(chǎn)生或者消失的時(shí)候,觸發(fā)某些作業(yè)),時(shí)間事件(可以在特定的時(shí)間或者周期性的觸發(fā)作業(yè)的運(yùn)行)等。LSF PM擁有CS模式的客戶端,同時(shí)也已經(jīng)集成到了LSF AC的Web界面中了。
03 LSF RTM(Report,Track,Monitor)
LSF RTM是LSF集群管理員的福音,LSF集群管理員可以通過LSF RTM的Web儀表盤來全面的、實(shí)時(shí)的監(jiān)視、報(bào)告和管理集群和工作負(fù)載,極大程度上提高了集群資源利用率和用戶生產(chǎn)率,以及控制或降低了用戶的成本。同時(shí)LSF RTM支持監(jiān)控應(yīng)用程序許可證服務(wù)器和集群中的用戶和用戶組。通過LSF RTM直觀的Dashboard,可以輕松有效的監(jiān)控多個(gè)LSF集群,完成管理員日常的集群維護(hù)工作。
04 LSF Explorer
LSF Explorer是針對LSF環(huán)境的輕量級報(bào)告解決方案,支持各種業(yè)務(wù)和用戶快速創(chuàng)建和查看報(bào)告和Dashboard。如果沒有LSF Explorer,想要滿足不同用戶的需求,這些報(bào)告需要從多個(gè)產(chǎn)品中的不同報(bào)告中獲得,而且這些數(shù)據(jù)可能需要通過電子表格的方式,手動創(chuàng)建報(bào)告,耗時(shí)且費(fèi)力。LSF Explorer使用Elasticsearch數(shù)據(jù)庫來存儲、索引和查詢數(shù)據(jù),LSF的用戶、IT管理人員或者項(xiàng)目負(fù)責(zé)人,都可以輕松的、定制化的獲取,定期查看計(jì)算環(huán)境的執(zhí)行報(bào)告,和所在項(xiàng)目或業(yè)務(wù)線正在消耗什么樣的資源。
05 LSF License Scheduler
商業(yè)化的應(yīng)用程序許可證(License)往往是一種昂貴的資源,用戶可以使用LSF License Scheduler,根據(jù)已建立的分發(fā)策略分配License,從而管理和優(yōu)化計(jì)算節(jié)點(diǎn)和項(xiàng)目之間的應(yīng)用程序License使用。License可以在集群之間共享,也可以在集群內(nèi)的項(xiàng)目之間共享。LSF License Scheduler可以簡化License共享,幫助提高生產(chǎn)力和增加對License資源的整體訪問,支持FlexNet和Reprise許可證管理器(RLM)等。
06 LSF Data Manager
作業(yè)的執(zhí)行,往往需要一些數(shù)據(jù)作為輸入,或者會輸入大量的數(shù)據(jù),如果沒有合理的數(shù)據(jù)管理,勢必對作業(yè)的執(zhí)行速度造成影響。使用LSF Data Manager,用戶可以有效地管理在HPC環(huán)境中的大量數(shù)據(jù),借助已經(jīng)具備的底層文件傳輸基礎(chǔ)設(shè)施(如IBM Aspera),自動化LSF集群內(nèi)和集群間的數(shù)據(jù)傳輸,以及本地與云之間的數(shù)據(jù)傳輸。LSF Data Manager還提供了一個(gè)智能托管緩存,允許復(fù)用數(shù)據(jù),并避免重復(fù)的傳輸,從而消除浪費(fèi)的磁盤空間和數(shù)據(jù)傳輸?shù)牡却龝r(shí)間。簡單的說,LSF Data Manager根據(jù)作業(yè)調(diào)度情況,決定移動哪些數(shù)據(jù),和什么時(shí)候移動,然后可以借助文件傳輸技術(shù)(如IBM Aspera)實(shí)現(xiàn)超高速傳輸。
LSF應(yīng)用場景和用戶分析
LSF主要的應(yīng)用場景為分布式計(jì)算領(lǐng)域和一些計(jì)算密集型的場景。LSF已經(jīng)成功的應(yīng)用到了眾多行業(yè),包括電子自動化,航空航天等制造業(yè)、教育培訓(xùn)、能源、金融、生命科學(xué),大型超算中心、氣象分析、環(huán)境監(jiān)測、仿真系統(tǒng)、數(shù)據(jù)挖掘、人工智能、動漫渲染等。簡而言之,如果后臺需要大量的計(jì)算,LSF定能助一臂之力。
目前,全球前12大汽車領(lǐng)域的公司,有10家在使用LSF。前25家電子自動化企業(yè),有23家在使用LSF計(jì)算機(jī)輔助作業(yè)調(diào)度。全球前3大生命科學(xué)中心均在使用LSF做后臺的集群調(diào)度。一些成功的超算中心,也在使用LSF做調(diào)度和監(jiān)控。很多高等學(xué)府和研究院,使用LSF做超前的研究工作。我們每天看的精準(zhǔn)的天氣預(yù)報(bào),也有LSF默默無聞的貢獻(xiàn)。LSF的成功案例數(shù)不勝數(shù),可以說,雖然我們摸不到,看不到,但LSF已然和我們的生活息息相關(guān)。
結(jié)語
因篇幅有限,不能對浩瀚的LSF做詳盡闡述,LSF依舊在持續(xù)的發(fā)展中。二十多年來,LSF工作負(fù)載/資源管理解決方案贏得了多個(gè)行業(yè)客戶的青睞,借助于LSF,客戶的作業(yè)運(yùn)行效率得到了極大的提高,降低了成本。今日的成功只是明日的起跑線,風(fēng)華正茂的LSF和它的小伙伴們,在以后的日子里,不改初心,會不斷完善自己,持續(xù)為客戶創(chuàng)造更大的價(jià)值。