好消息!Amazon Glue版本2.0將Spark ETL作業(yè)的啟動時間縮短了10倍,此版本現(xiàn)已全面開放啦!
Amazon Glue是一項完全托管的提取、轉(zhuǎn)換和加載(ETL)服務,讓客戶能夠輕松地準備和加載數(shù)據(jù)以供分析。Amazon Glue采樣“無服務器”架構(gòu)–您無需預置或管理任何資源,并且只需在Amazon Glue主動運行時為資源付費。啟動延遲的減少可縮短總體作業(yè)完成所需時間,支持客戶的微批處理和時間敏感型工作負載需求,并通過支持交互式腳本開發(fā)和數(shù)據(jù)探索來提高企業(yè)生產(chǎn)力。
Amazon Glue版本2.0提高了作業(yè)啟動延遲的可預測性并減少了開銷。此外,Amazon Glue版本2.0的Spark作業(yè)將以1秒為增量計費,最低賬單周期縮短10倍(從最短10分鐘降至最短1分鐘)。因此,客戶現(xiàn)在能夠以更高的性價比來運行微批處理、高時效性、交互式的工作負載??蛻艨梢赃\行微批處理作業(yè)來快速加載數(shù)據(jù)湖、數(shù)據(jù)倉庫、數(shù)據(jù)庫,以及實現(xiàn)實時分析。作業(yè)啟動時間縮短之后,客戶可以更可靠地運行SLA驅(qū)動的數(shù)據(jù)管道。
此外,縮短作業(yè)啟動時間可實現(xiàn)交互式的數(shù)據(jù)探索和試驗。Amazon Glue版本2.0還新增了從Wheel文件或存儲庫安裝Python模塊的功能。
工作原理
下面我們來看如何在亞馬遜云科技管理控制臺上使用此功能。這項新功能的使用非常簡單–您可以按照如下示例,創(chuàng)建新的Amazon Glue Spark ETL作業(yè)或?qū)F(xiàn)有的Amazon Glue Spark ETL作業(yè)遷移到Glue版本2.0。
我創(chuàng)建了一個簡單的Amazon Glue作業(yè),以跨不同的Amazon S3存儲桶復制.csv文件。
AmazonGlue版本1.0
您可以看到Amazon Glue版本2.0的啟動時間縮短了10倍。
AmazonGlue版本2.0
現(xiàn)已正式開放!
Amazon Glue 2.0已在提供Amazon Glue的所有區(qū)域開放。