AWS發(fā)布AWS Glue DataBrew,讓數(shù)據(jù)可視化準(zhǔn)備工作提速達(dá)80%

來(lái)源: eNet
作者:eNet&Ciweek
時(shí)間:2020-11-20
17164
AWS Glue全新的可視化數(shù)據(jù)準(zhǔn)備工具,讓數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師能夠更快地清洗和處理數(shù)據(jù)。與傳統(tǒng)數(shù)據(jù)準(zhǔn)備方法相比,速度可提高80%。

N2UzZGFhOS5qcGVn.jpg

AWS Glue全新的可視化數(shù)據(jù)準(zhǔn)備工具,讓數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師能夠更快地清洗和處理數(shù)據(jù)。與傳統(tǒng)數(shù)據(jù)準(zhǔn)備方法相比,速度可提高80%。

北京2020年11月19日/美通社/--日前,亞馬遜云服務(wù)(AWS)宣布AWS Glue DataBrew正式可用。AWS Glue DataBrew是一款全新的可視化數(shù)據(jù)準(zhǔn)備工具,客戶無(wú)需編寫(xiě)代碼就可以清洗和處理數(shù)據(jù)。自2016年以來(lái),數(shù)據(jù)工程師一直使用AWS Glue來(lái)創(chuàng)建、運(yùn)行和監(jiān)控?cái)?shù)據(jù)提取、轉(zhuǎn)換和加載(ETL)作業(yè)。AWS Glue同時(shí)提供基于代碼接口和可視化界面,大大簡(jiǎn)化了客戶在云中提取、轉(zhuǎn)換和加載數(shù)據(jù)的過(guò)程。數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家們一直想要一種更簡(jiǎn)單的方法來(lái)清洗和處理這些數(shù)據(jù),而這正是DataBrew所能提供的。通過(guò)AWS Glue DataBrew,客戶可以直接從AWS數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)中開(kāi)展數(shù)據(jù)探索和實(shí)驗(yàn),而無(wú)需編寫(xiě)代碼。AWS Glue DataBrew為客戶提供了超過(guò)250個(gè)預(yù)先構(gòu)建的轉(zhuǎn)換,以自動(dòng)化數(shù)據(jù)準(zhǔn)備任務(wù)(如過(guò)濾異常、標(biāo)準(zhǔn)化格式和糾正無(wú)效值)。而沒(méi)有這些預(yù)先構(gòu)建的轉(zhuǎn)換,往往需要幾天或幾周的時(shí)間編寫(xiě)手工編碼。一旦數(shù)據(jù)準(zhǔn)備完畢,客戶可以立即開(kāi)始使用AWS和第三方的分析和機(jī)器學(xué)習(xí)服務(wù)來(lái)查詢數(shù)據(jù)和訓(xùn)練機(jī)器學(xué)習(xí)模型。使用AWS Glue DataBrew不需要預(yù)付協(xié)議或費(fèi)用,客戶只需要為數(shù)據(jù)集的創(chuàng)建和運(yùn)行轉(zhuǎn)換付費(fèi)。如欲開(kāi)始使用AWS Glue DataBrew,請(qǐng)?jiān)L問(wèn):

為分析和機(jī)器學(xué)習(xí)準(zhǔn)備數(shù)據(jù)涉及多個(gè)必要且耗時(shí)的任務(wù),包括數(shù)據(jù)提取、清洗、標(biāo)準(zhǔn)化、加載和大規(guī)模ETL工作流的編排。為了大規(guī)模地提取、轉(zhuǎn)換和加載數(shù)據(jù),精通SQL或Python、Scala等編程語(yǔ)言的數(shù)據(jù)工程師和ETL開(kāi)發(fā)者可以使用AWS Glue。ETL開(kāi)發(fā)者通常更喜歡現(xiàn)代ETL工具中常見(jiàn)的可視化接口,而不是編寫(xiě)SQL、Python或Scala,所以AWS最近推出了AWS Glue Studio,這是一個(gè)新的可視化界面,可以幫助編寫(xiě)、運(yùn)行和監(jiān)控ETL作業(yè),無(wú)需編寫(xiě)任何代碼。一旦數(shù)據(jù)被可靠地搬移到AWS上,就需要業(yè)務(wù)線中理解數(shù)據(jù)上下文的數(shù)據(jù)分析人員和數(shù)據(jù)科學(xué)家對(duì)這些數(shù)據(jù)進(jìn)行清洗和處理。要清洗和處理數(shù)據(jù),數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家們要不就得在Excel或Jupyter Notebooks中處理小批量的數(shù)據(jù),從而無(wú)法處理大型數(shù)據(jù)集。又或者需要依靠稀缺的數(shù)據(jù)工程師和ETL開(kāi)發(fā)人員編寫(xiě)定制代碼,執(zhí)行清洗和處理。為了發(fā)現(xiàn)數(shù)據(jù)中的異常,技術(shù)精湛的數(shù)據(jù)工程師和ETL開(kāi)發(fā)者需要花費(fèi)數(shù)天或數(shù)周時(shí)間編寫(xiě)定制工作流,將數(shù)據(jù)從不同的源中提取出來(lái),然后透視、轉(zhuǎn)置,多次切分?jǐn)?shù)據(jù),才能由數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家迭代,識(shí)別并解決數(shù)據(jù)的質(zhì)量問(wèn)題。在開(kāi)發(fā)了這些轉(zhuǎn)換之后,數(shù)據(jù)工程師和ETL開(kāi)發(fā)者仍然需要編排自定義工作流并持續(xù)運(yùn)行來(lái)自動(dòng)地清洗和規(guī)范化新傳入的數(shù)據(jù)。每次數(shù)據(jù)分析師或數(shù)據(jù)科學(xué)家想要更改或添加轉(zhuǎn)換時(shí),數(shù)據(jù)工程師和ETL開(kāi)發(fā)者就需要再次提取、加載、清洗、規(guī)范化和協(xié)調(diào)數(shù)據(jù)準(zhǔn)備任務(wù),這個(gè)迭代過(guò)程可能需要數(shù)周到數(shù)個(gè)月的時(shí)間才能完成。結(jié)果是,客戶多達(dá)80%的時(shí)間都花費(fèi)在清洗和標(biāo)準(zhǔn)化數(shù)據(jù)上,而非真正地分析數(shù)據(jù)并從中提取價(jià)值。

AWS Glue DataBrew是一個(gè)AWS Glue的可視化數(shù)據(jù)準(zhǔn)備工具,允許數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家無(wú)需編寫(xiě)任何代碼,即可通過(guò)一個(gè)交互式、單擊的可視化界面來(lái)清洗和轉(zhuǎn)換數(shù)據(jù)。使用AWS Glue DataBrew,終端用戶可以直接從他們的Amazon Simple Storage Service(Amazon S3)數(shù)據(jù)湖、Amazon Redshift數(shù)據(jù)倉(cāng)庫(kù)、Amazon Aurora和Amazon Relational Database Service(Amazon RDS)數(shù)據(jù)庫(kù)中輕松地訪問(wèn)、可視化地探索組織內(nèi)任意數(shù)量的數(shù)據(jù)。客戶無(wú)需編寫(xiě)代碼,即可選擇超過(guò)250個(gè)內(nèi)置函數(shù)來(lái)組合、透視和轉(zhuǎn)置數(shù)據(jù)。AWS Glue DataBrew推薦諸如過(guò)濾異常、將數(shù)據(jù)標(biāo)準(zhǔn)化為標(biāo)準(zhǔn)日期和時(shí)間值、生成用于分析的聚合,以及糾正無(wú)效、錯(cuò)誤分類或重復(fù)的數(shù)據(jù)等數(shù)據(jù)清洗和標(biāo)準(zhǔn)化步驟。對(duì)于復(fù)雜的任務(wù),如將單詞轉(zhuǎn)換為通用的基本單詞或根單詞(如將“yearly”和“yearlong”轉(zhuǎn)換為“year”),AWS Glue DataBrew還提供了使用高級(jí)機(jī)器學(xué)習(xí)技術(shù),如自然語(yǔ)言處理(NLP)的轉(zhuǎn)換。然后,用戶可以將這些清洗和處理步驟保存到工作流(稱為配方)中,并將它們自動(dòng)應(yīng)用到未來(lái)傳入的數(shù)據(jù)中。如果需要對(duì)工作流進(jìn)行更改,數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家只需更新配方中的清洗和處理步驟,并在新數(shù)據(jù)到達(dá)時(shí)自動(dòng)應(yīng)用它們。AWS Glue DataBrew將準(zhǔn)備好的數(shù)據(jù)發(fā)布到Amazon S3,讓客戶可以很便捷地立即用于分析和機(jī)器學(xué)習(xí)。AWS Glue DataBrew是無(wú)服務(wù)器和全托管的服務(wù),客戶不需要配置、供應(yīng)或管理任何計(jì)算資源。

“AWS客戶正以前所未有的速度使用數(shù)據(jù),進(jìn)行分析和機(jī)器學(xué)習(xí)。然而,這些客戶經(jīng)常告訴我們,他們的團(tuán)隊(duì)在無(wú)差異的、重復(fù)的、單調(diào)的數(shù)據(jù)準(zhǔn)備工作上花費(fèi)了太多時(shí)間。”AWS數(shù)據(jù)庫(kù)和分析副總裁Raju Gulabani表示,“客戶喜歡像AWS Glue這樣基于代碼的數(shù)據(jù)準(zhǔn)備服務(wù)的可擴(kuò)展性和靈活性,而允許業(yè)務(wù)用戶、數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家無(wú)需編寫(xiě)代碼,就可以獨(dú)立地可視化地探索和試驗(yàn)數(shù)據(jù),也會(huì)讓客戶從中受益。AWS Glue DataBrew具有一個(gè)易于使用的可視化界面,可幫助所有技術(shù)水平的數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家理解、合并、清洗和轉(zhuǎn)換數(shù)據(jù)?!?/strong>

AWS Glue DataBrew現(xiàn)已在美國(guó)東部(弗吉尼亞北部)、美國(guó)東部(俄亥俄)、美國(guó)西部(俄勒岡)、歐洲(愛(ài)爾蘭)、歐洲(法蘭克福)、亞太地區(qū)(悉尼)區(qū)域和亞太地區(qū)(東京)區(qū)域正式推出,其它區(qū)域也將很快推出。

立即登錄,閱讀全文
版權(quán)說(shuō)明:
本文內(nèi)容來(lái)自于eNet,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多