AWS開(kāi)源適用于Amazon S3的文件客戶(hù)端MountpointAlpha測(cè)試版,Mountpoint以程序語(yǔ)言Rust開(kāi)發(fā),能將本地文件系統(tǒng)的API調(diào)用,轉(zhuǎn)換成為S3對(duì)象的API調(diào)用,適合用于處理PB級(jí)資料,或是跨數(shù)千個(gè)執(zhí)行實(shí)例的讀取密集資料湖工作負(fù)載。
AWS開(kāi)發(fā)Mountpoint的原因,官方解釋?zhuān)驗(yàn)椴糠仲Y料湖用戶(hù)使用特定領(lǐng)域的工具,這些工具輸入和輸出皆為本地文件系統(tǒng)的文件,而不支持S3對(duì)象API。像是開(kāi)源的Linux基因組學(xué)研究工具便需要對(duì)本地文件系統(tǒng)讀取定序資料,又或是機(jī)器學(xué)習(xí)訓(xùn)練工作管線,也需要在本地文件系統(tǒng)存儲(chǔ)檢查點(diǎn)文件。
用戶(hù)要將這些應(yīng)用串聯(lián)上S3可能是一件復(fù)雜的工作,又或是缺乏應(yīng)用程序的源碼,因此也無(wú)法完成這樣的目標(biāo)。Mountpoint是開(kāi)源文件客戶(hù)端,能夠讓Linux應(yīng)用程序簡(jiǎn)單地連接到S3存儲(chǔ)桶,并且使用文件API訪問(wèn)對(duì)象,Mountpoint擅長(zhǎng)處理需要平行讀取、生成大量S3資料,且不需要更新既有S3對(duì)象的任務(wù)。
Mountpoint使用戶(hù)能夠?qū)3存儲(chǔ)桶或是前綴,映射到執(zhí)行實(shí)例的文件系統(tǒng)命名空間,把存儲(chǔ)桶的內(nèi)容當(dāng)作本地文件一樣取用,對(duì)S3進(jìn)行GET和PUT操作,并且在不需要更改程序代碼和擔(dān)心性能配置下,就可達(dá)到每秒TB級(jí)的聚合吞吐量。
不過(guò),Mountpoint畢竟不是通用網(wǎng)絡(luò)文件系統(tǒng),因此存在一些文件操作限制,目前Alpha測(cè)試版還不支持寫(xiě)入對(duì)象,官方提到,未來(lái)Mountpoint也只會(huì)支持串行寫(xiě)入新對(duì)象。因此需要執(zhí)行跨執(zhí)行實(shí)例或是用戶(hù)協(xié)作的共享文件應(yīng)用程序,AWS建議使用FSx或是EFS等全托管文件服務(wù)。
當(dāng)資料湖應(yīng)用程序不需要使用其他文件系統(tǒng)文件讀取大型對(duì)象,或是只需要對(duì)單一節(jié)點(diǎn)寫(xiě)入對(duì)象,則Mountpoint便是可高性能訪問(wèn)S3的好用工具。AWS目前已經(jīng)發(fā)布Mountpoint Alpha測(cè)試版,用戶(hù)可以在GitHub上取用程序代碼。