AWS發(fā)布Amazon EMR on EKS更新,支持自定義鏡像文件,用戶(hù)不必再等待EMR on EKS耗時(shí)地重新構(gòu)建鏡像文件,可以直接在EKS集群上,使用自家持續(xù)集成工作管線(xiàn)所生成的鏡像文件。
Amazon EMR on EKS是AWS才在re:Invent大會(huì)上發(fā)布的新服務(wù),AWS大資料服務(wù)Amazon EMR,能夠部署到Kubernetes服務(wù)Amazon EKS(Elastic Kubernetes Service),如此,用戶(hù)就可以將EMR應(yīng)用程序,部署到其他執(zhí)行應(yīng)用程序的EKS集群上,以簡(jiǎn)化操作和管理工作,并且能夠共享資源降低執(zhí)行成本。
同時(shí)也能讓原本在Kubernetes上執(zhí)行Apache Spark的用戶(hù),簡(jiǎn)單地搬遷到Amazon EMR on EKS,不僅能使用經(jīng)性能優(yōu)化的Runtime,還可以獲得使用Apache Airflow和AWS Step Functions集成執(zhí)行工作管線(xiàn),以及使用Spark UI進(jìn)行調(diào)試等好處。
在用戶(hù)提交工作時(shí),EMR便會(huì)使用大資料框架,自動(dòng)打包應(yīng)用程序到容器中,并且提供預(yù)構(gòu)建的連接器,和其他AWS服務(wù)集成,接著由EMR在EKS集群上部署應(yīng)用程序,并管理工作執(zhí)行、日志記錄和監(jiān)控。也就是說(shuō),目前EMR on EKS會(huì)在工作提交時(shí),才動(dòng)態(tài)添加外部存儲(chǔ)的應(yīng)用程序相依項(xiàng)目。
不過(guò)這個(gè)過(guò)程過(guò)于耗時(shí),AWS現(xiàn)在讓用戶(hù)可以使用自定義鏡像文件,直接將服務(wù)指向現(xiàn)有鏡像文件并且開(kāi)始執(zhí)行,借此提高執(zhí)行性能。通過(guò)自定義鏡像文件,用戶(hù)可以使用自己的持續(xù)集成工作管線(xiàn),以?xún)?yōu)化的EMR Spark Runtime為基礎(chǔ),創(chuàng)建包含應(yīng)用程序和相依項(xiàng)目的容器鏡像文件,這將能減少構(gòu)建鏡像文件的時(shí)間,并且預(yù)測(cè)本地開(kāi)發(fā)或是測(cè)試容器啟動(dòng)的時(shí)間。
用戶(hù)可以創(chuàng)建基礎(chǔ)鏡像文件,添加企業(yè)專(zhuān)屬的標(biāo)準(zhǔn)函數(shù)庫(kù),然后將其存儲(chǔ)在注冊(cè)表服務(wù)Amazon ECR(Elastic Container Registry)中,自定義鏡像文件能夠包含特殊的應(yīng)用程序相依項(xiàng)目,并且部署到測(cè)試和生產(chǎn)環(huán)境中,用戶(hù)只要將EMR on EKS指向自定義鏡像文件,就可以開(kāi)始執(zhí)行應(yīng)用程序。
這個(gè)新功能支持自動(dòng)化流程,因此用戶(hù)可以使用現(xiàn)有持續(xù)集成工作管線(xiàn),添加相依項(xiàng)目到鏡像文件中,并且使用Amazon EMR漏洞掃描功能,或是使用EMR驗(yàn)證工具來(lái)檢查文件結(jié)構(gòu)和Runtime版本。EMR on EKS的API也集成到了諸如AWS Step Functions和MWAA(AWS Managed Workflows for Apache Airflow)調(diào)度服務(wù),供用戶(hù)以自動(dòng)化的方式,在工作流程中生成鏡像文件。