構(gòu)建“Zero ETL”未來(lái),亞馬遜云科技幫助開發(fā)者實(shí)現(xiàn)近實(shí)時(shí)分析

來(lái)源:亞馬遜云科技
作者:亞馬遜云科技
時(shí)間:2023-07-04
2873
數(shù)據(jù)是每個(gè)應(yīng)用程序、流程和業(yè)務(wù)決策的核心。當(dāng)數(shù)據(jù)被用于改善客戶體驗(yàn)和驅(qū)動(dòng)創(chuàng)新時(shí),就能推動(dòng)業(yè)務(wù)增長(zhǎng)。

數(shù)據(jù)是每個(gè)應(yīng)用程序、流程和業(yè)務(wù)決策的核心。當(dāng)數(shù)據(jù)被用于改善客戶體驗(yàn)和驅(qū)動(dòng)創(chuàng)新時(shí),就能推動(dòng)業(yè)務(wù)增長(zhǎng)。

據(jù)Forrester研究,相對(duì)于數(shù)據(jù)應(yīng)用不夠成熟的公司,那些有效獲取業(yè)務(wù)洞察的公司,有高達(dá)8.5倍的可能性實(shí)現(xiàn)至少20%的收入增長(zhǎng)。然而,要實(shí)現(xiàn)這一增長(zhǎng),需要簡(jiǎn)化一項(xiàng)流程——在數(shù)據(jù)分析前管理和準(zhǔn)備好數(shù)據(jù)。

這就是為什么亞馬遜云科技正在構(gòu)建“Zero ETL的未來(lái)”,如此一來(lái),客戶可以更多地專注于從數(shù)據(jù)中創(chuàng)造價(jià)值,而不是花精力在準(zhǔn)備數(shù)據(jù)上。

ETL的挑戰(zhàn)

什么是ETL?ETL是提?。‥xtract)、轉(zhuǎn)換清洗(Transform)、加載(Load)的過程,也是數(shù)據(jù)工程師用來(lái)整合來(lái)自不同來(lái)源的數(shù)據(jù)的過程。ETL過程可能伴隨著挑戰(zhàn)性高、耗時(shí)長(zhǎng)和成本高的問題。首先,它需要數(shù)據(jù)工程師手動(dòng)編寫自定義代碼;接下來(lái),DevOps工程師必須部署和管理基礎(chǔ)設(shè)施,以確保數(shù)據(jù)管道能夠與工作負(fù)載一起擴(kuò)展。如果數(shù)據(jù)源發(fā)生變化,數(shù)據(jù)工程師必須手動(dòng)改代碼并再次部署。這個(gè)過程可能需要幾天的時(shí)間,然而與此同時(shí),數(shù)據(jù)分析師無(wú)法進(jìn)行交互式分析或構(gòu)建可視化的界面看板,數(shù)據(jù)科學(xué)家無(wú)法構(gòu)建機(jī)器學(xué)習(xí)(ML)模型或進(jìn)行預(yù)測(cè),導(dǎo)致最終用戶無(wú)法做出基于數(shù)據(jù)的決策。

此外,構(gòu)建或更改數(shù)據(jù)管道所需的時(shí)間,可能會(huì)導(dǎo)致數(shù)據(jù)不適用于近實(shí)時(shí)的場(chǎng)景,比如檢測(cè)欺詐交易、發(fā)布在線廣告和追蹤乘客列車的時(shí)刻表。在這些情況下,改善客戶體驗(yàn)、抓住新的業(yè)務(wù)機(jī)會(huì)或降低業(yè)務(wù)風(fēng)險(xiǎn)的機(jī)會(huì)可能就這樣錯(cuò)過了。

反之,當(dāng)企業(yè)可以快速、無(wú)縫地集成來(lái)自不同來(lái)源的數(shù)據(jù)時(shí),他們對(duì)自己的客戶和業(yè)務(wù)有了更好的理解,那么企業(yè)就可以更有信心地進(jìn)行數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè),改善客戶體驗(yàn),并在整個(gè)業(yè)務(wù)中推廣數(shù)據(jù)驅(qū)動(dòng)的洞察。

亞馬遜云科技正在將

“Zero ETL”的愿景變?yōu)楝F(xiàn)實(shí)

我們一直在朝著實(shí)現(xiàn)“Zero ETL”的目標(biāo)穩(wěn)步前進(jìn)。我們聽到了客戶的反饋,他們希望能夠直接將流式數(shù)據(jù)接入他們的數(shù)據(jù)存儲(chǔ)中進(jìn)行分析,而無(wú)需去研究復(fù)雜的ETL過程。

通過Amazon Redshift流式數(shù)據(jù)攝入功能,企業(yè)可以配置Amazon Redshift直接接入來(lái)自流式服務(wù)Amazon MSK(Managed Streaming for Apache Kafka)或Amazon Kinesis的高吞吐量流式數(shù)據(jù),并讓它們?cè)趲酌腌妰?nèi)進(jìn)行近實(shí)時(shí)分析。他們可以連接到多個(gè)數(shù)據(jù)流,并將數(shù)據(jù)直接注入Amazon Redshift,而無(wú)需在Amazon Simple Storage Service(Amazon S3)中進(jìn)行暫存。運(yùn)行分析后,可以通過云原生、無(wú)服務(wù)器的商業(yè)智能(BI)服務(wù)Amazon QuickSight,讓整個(gè)企業(yè)從業(yè)務(wù)洞察中獲益。通過Amazon QuickSight Q,用戶可以輕松直觀地獲得業(yè)務(wù)洞察,這個(gè)功能能方便用戶使用自然語(yǔ)言提出關(guān)于他們數(shù)據(jù)的業(yè)務(wù)問題,并通過數(shù)據(jù)可視化快速獲得結(jié)果。

在實(shí)現(xiàn)Zero ETL的過程中,亞馬遜云科技還提供了一項(xiàng)重要功能,即能夠在無(wú)需移動(dòng)數(shù)據(jù)的情況下查詢各種數(shù)據(jù)源。通過使用Amazon Redshift和Amazon Athena中的聯(lián)邦查詢,企業(yè)可以對(duì)存儲(chǔ)在他們的事務(wù)型數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖中的數(shù)據(jù)運(yùn)行查詢,從而獲取來(lái)自多個(gè)數(shù)據(jù)源的洞察,而無(wú)需移動(dòng)數(shù)據(jù)。數(shù)據(jù)分析師和數(shù)據(jù)工程師可以使用他們熟悉的SQL命令來(lái)連接多個(gè)數(shù)據(jù)源,以便進(jìn)行快速分析,并將結(jié)果存儲(chǔ)在Amazon S3中以供日后使用。這種靈活的方法簡(jiǎn)化了數(shù)據(jù)攝入過程,避免了復(fù)雜的ETL流程。

在2022年亞馬遜云科技re:Invent大會(huì)上,我們推出了Amazon Aurora與Amazon Redshift的Zero ETL集成。請(qǐng)觀看以下視頻:

我們從客戶那里了解到,他們?cè)跇?gòu)建和管理事務(wù)型數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)之間的ETL管道上花費(fèi)了大量的時(shí)間和資源。舉個(gè)例子,假設(shè)有一家全球制造公司,在十幾個(gè)國(guó)家擁有工廠,并使用一系列Aurora數(shù)據(jù)庫(kù)集群管理每個(gè)國(guó)家存儲(chǔ)訂單和庫(kù)存數(shù)據(jù)。當(dāng)公司高層想要查看所有訂單和庫(kù)存時(shí),數(shù)據(jù)工程師必須為每個(gè)Aurora集群構(gòu)建單獨(dú)的數(shù)據(jù)管道,將數(shù)據(jù)整合到一個(gè)中心數(shù)據(jù)倉(cāng)庫(kù)中,以便數(shù)據(jù)分析師可以查詢整合后的數(shù)據(jù)集。為了實(shí)現(xiàn)這一點(diǎn),數(shù)據(jù)集成團(tuán)隊(duì)必須編寫代碼來(lái)連接到12個(gè)不同的集群,并分別管理和測(cè)試12個(gè)生產(chǎn)環(huán)境管道。團(tuán)隊(duì)部署代碼后,還需要不斷監(jiān)控和調(diào)整該管道以優(yōu)化性能,而且一旦有任何變化,就需要在12個(gè)不同的地方進(jìn)行更新。這是一項(xiàng)非常重復(fù)冗長(zhǎng)的工作。

Amazon Aurora和Amazon Redshift

之間不再需要定制的ETL管道

Aurora與Amazon Redshift的Zero ETL集成將Aurora的事務(wù)數(shù)據(jù)與Amazon Redshift的分析能力結(jié)合在一起。這樣一來(lái),構(gòu)建和管理Aurora與Amazon Redshift之間的定制ETL管道的工作量大大減少。

和傳統(tǒng)系統(tǒng)中的“數(shù)據(jù)孤島”不同,用戶必須在統(tǒng)一分析和性能之間做出權(quán)衡;而現(xiàn)在數(shù)據(jù)工程師可以將多個(gè)Aurora數(shù)據(jù)庫(kù)集群中的數(shù)據(jù)復(fù)制到同一個(gè)或新的Amazon Redshift實(shí)例中,以獲得跨多個(gè)應(yīng)用程序或分區(qū)的全面洞察。Aurora中的更新會(huì)自動(dòng)連續(xù)地復(fù)制到Amazon Redshift,這樣數(shù)據(jù)工程師就可以幾乎實(shí)時(shí)地獲取最新的信息。整個(gè)系統(tǒng)是無(wú)服務(wù)器的,可以根據(jù)數(shù)據(jù)量的大小動(dòng)態(tài)地上下擴(kuò)展,因此,企業(yè)無(wú)需管理基礎(chǔ)設(shè)施?,F(xiàn)在,企業(yè)可以在Aurora中真正實(shí)現(xiàn)快速、規(guī)模化地事務(wù)分析以及Amazon Redshift中的可擴(kuò)展分析,所有這些功能都集成在一個(gè)無(wú)縫的系統(tǒng)中。通過幾乎實(shí)時(shí)訪問事務(wù)數(shù)據(jù),企業(yè)可以充分利用Amazon Redshift的分析能力,如機(jī)器學(xué)習(xí)、物化視圖、數(shù)據(jù)共享,以及對(duì)多個(gè)數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)湖的聯(lián)邦訪問,從事務(wù)及其他數(shù)據(jù)中獲取洞察。

持續(xù)提高Zero ETL的性能是亞馬遜云科技的持續(xù)性目標(biāo),例如,我們的早期就使用Zero ETL預(yù)覽版的客戶觀察到,他們的Amazon Aurora MySQL數(shù)據(jù)庫(kù)每分鐘產(chǎn)生數(shù)十萬(wàn)個(gè)事務(wù),這些事務(wù)在不到10秒的時(shí)間內(nèi)就能出現(xiàn)在他們的Amazon Redshift數(shù)據(jù)倉(cāng)庫(kù)中。在這之前,他們將數(shù)據(jù)從ETL管道移動(dòng)到Amazon Redshift的過程需要超過2個(gè)小時(shí)的延遲時(shí)間。通過Aurora和Redshift之間的Zero ETL集成,他們現(xiàn)在可以實(shí)現(xiàn)幾乎實(shí)時(shí)的分析。

Zero ETL使數(shù)據(jù)工程師能夠在使用過程中直接集成服務(wù)并直接查詢各種數(shù)據(jù)存儲(chǔ),從而使他們能夠?qū)W⒂趶臄?shù)據(jù)中創(chuàng)造價(jià)值,而不是花費(fèi)時(shí)間和資源來(lái)構(gòu)建數(shù)據(jù)管道。亞馬遜云科技將繼續(xù)致力于構(gòu)建Zero ETL未來(lái),助力企業(yè)走向數(shù)據(jù)驅(qū)動(dòng)的業(yè)務(wù)增長(zhǎng)之路。

客戶故事

640 (2).png

北京樂城堡科技有限公司成立于2013年,團(tuán)隊(duì)成員分布于美國(guó)加州、中國(guó)北京及上海,是一家面向全球的移動(dòng)互聯(lián)網(wǎng)公司,公司在深入研究細(xì)分游戲市場(chǎng)的基礎(chǔ)上,結(jié)合對(duì)深度用戶體驗(yàn)的理解,專注于智能手機(jī)游戲及應(yīng)用的研發(fā)和發(fā)行。

640.png

樂城堡采用Amazon Redshift產(chǎn)品作為企業(yè)的核心數(shù)據(jù)倉(cāng)庫(kù)服務(wù),通過將用戶行為的埋點(diǎn)數(shù)據(jù)寫入到Amazon Managed Streaming for Apache Kafka(MSK),結(jié)合Amazon Redshift內(nèi)置的Streaming Ingestion技術(shù)能夠?qū)?shù)據(jù)以準(zhǔn)實(shí)時(shí)方式的寫入到Amazon Redshift,并在此基礎(chǔ)之上開展后續(xù)所需的數(shù)據(jù)分析。

Amazon MSK作為全托管、高可用的Apache Kafka服務(wù),幫助我們快速構(gòu)建流式傳輸?shù)墓艿?,將之前端到端的?shù)據(jù)傳輸延遲從分鐘級(jí)提升到秒級(jí),使得實(shí)時(shí)攝取和處理流數(shù)據(jù)變得簡(jiǎn)單高效。Amazon Redshift作為企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù),能夠容納規(guī)模至PB級(jí)別的數(shù)據(jù),實(shí)現(xiàn)復(fù)雜查詢,保證游戲運(yùn)營(yíng)人員能快速獲取所需的數(shù)據(jù)與統(tǒng)計(jì)信息,無(wú)論是規(guī)模還是并發(fā)性能,對(duì)于業(yè)務(wù)的持續(xù)增長(zhǎng)我們都能保持信心。

李明

北京樂城堡科技有限公司數(shù)據(jù)總監(jiān)

立即登錄,閱讀全文
原文鏈接:點(diǎn)擊前往 >
文章來(lái)源:亞馬遜云科技
版權(quán)說(shuō)明:本文內(nèi)容來(lái)自于亞馬遜云科技,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家