數(shù)據(jù)是每個應用程序、流程和業(yè)務決策的核心。當數(shù)據(jù)被用于改善客戶體驗和驅(qū)動創(chuàng)新時,就能推動業(yè)務增長。
據(jù)Forrester研究,相對于數(shù)據(jù)應用不夠成熟的公司,那些有效獲取業(yè)務洞察的公司,有高達8.5倍的可能性實現(xiàn)至少20%的收入增長。然而,要實現(xiàn)這一增長,需要簡化一項流程——在數(shù)據(jù)分析前管理和準備好數(shù)據(jù)。
這就是為什么亞馬遜云科技正在構(gòu)建“Zero ETL的未來”,如此一來,客戶可以更多地專注于從數(shù)據(jù)中創(chuàng)造價值,而不是花精力在準備數(shù)據(jù)上。
ETL的挑戰(zhàn)
什么是ETL?ETL是提?。‥xtract)、轉(zhuǎn)換清洗(Transform)、加載(Load)的過程,也是數(shù)據(jù)工程師用來整合來自不同來源的數(shù)據(jù)的過程。ETL過程可能伴隨著挑戰(zhàn)性高、耗時長和成本高的問題。首先,它需要數(shù)據(jù)工程師手動編寫自定義代碼;接下來,DevOps工程師必須部署和管理基礎設施,以確保數(shù)據(jù)管道能夠與工作負載一起擴展。如果數(shù)據(jù)源發(fā)生變化,數(shù)據(jù)工程師必須手動改代碼并再次部署。這個過程可能需要幾天的時間,然而與此同時,數(shù)據(jù)分析師無法進行交互式分析或構(gòu)建可視化的界面看板,數(shù)據(jù)科學家無法構(gòu)建機器學習(ML)模型或進行預測,導致最終用戶無法做出基于數(shù)據(jù)的決策。
此外,構(gòu)建或更改數(shù)據(jù)管道所需的時間,可能會導致數(shù)據(jù)不適用于近實時的場景,比如檢測欺詐交易、發(fā)布在線廣告和追蹤乘客列車的時刻表。在這些情況下,改善客戶體驗、抓住新的業(yè)務機會或降低業(yè)務風險的機會可能就這樣錯過了。
反之,當企業(yè)可以快速、無縫地集成來自不同來源的數(shù)據(jù)時,他們對自己的客戶和業(yè)務有了更好的理解,那么企業(yè)就可以更有信心地進行數(shù)據(jù)驅(qū)動的預測,改善客戶體驗,并在整個業(yè)務中推廣數(shù)據(jù)驅(qū)動的洞察。
亞馬遜云科技正在將
“Zero ETL”的愿景變?yōu)楝F(xiàn)實
我們一直在朝著實現(xiàn)“Zero ETL”的目標穩(wěn)步前進。我們聽到了客戶的反饋,他們希望能夠直接將流式數(shù)據(jù)接入他們的數(shù)據(jù)存儲中進行分析,而無需去研究復雜的ETL過程。
通過Amazon Redshift流式數(shù)據(jù)攝入功能,企業(yè)可以配置Amazon Redshift直接接入來自流式服務Amazon MSK(Managed Streaming for Apache Kafka)或Amazon Kinesis的高吞吐量流式數(shù)據(jù),并讓它們在幾秒鐘內(nèi)進行近實時分析。他們可以連接到多個數(shù)據(jù)流,并將數(shù)據(jù)直接注入Amazon Redshift,而無需在Amazon Simple Storage Service(Amazon S3)中進行暫存。運行分析后,可以通過云原生、無服務器的商業(yè)智能(BI)服務Amazon QuickSight,讓整個企業(yè)從業(yè)務洞察中獲益。通過Amazon QuickSight Q,用戶可以輕松直觀地獲得業(yè)務洞察,這個功能能方便用戶使用自然語言提出關(guān)于他們數(shù)據(jù)的業(yè)務問題,并通過數(shù)據(jù)可視化快速獲得結(jié)果。
在實現(xiàn)Zero ETL的過程中,亞馬遜云科技還提供了一項重要功能,即能夠在無需移動數(shù)據(jù)的情況下查詢各種數(shù)據(jù)源。通過使用Amazon Redshift和Amazon Athena中的聯(lián)邦查詢,企業(yè)可以對存儲在他們的事務型數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)湖中的數(shù)據(jù)運行查詢,從而獲取來自多個數(shù)據(jù)源的洞察,而無需移動數(shù)據(jù)。數(shù)據(jù)分析師和數(shù)據(jù)工程師可以使用他們熟悉的SQL命令來連接多個數(shù)據(jù)源,以便進行快速分析,并將結(jié)果存儲在Amazon S3中以供日后使用。這種靈活的方法簡化了數(shù)據(jù)攝入過程,避免了復雜的ETL流程。
在2022年亞馬遜云科技re:Invent大會上,我們推出了Amazon Aurora與Amazon Redshift的Zero ETL集成。請觀看以下視頻:
我們從客戶那里了解到,他們在構(gòu)建和管理事務型數(shù)據(jù)庫與數(shù)據(jù)倉庫之間的ETL管道上花費了大量的時間和資源。舉個例子,假設有一家全球制造公司,在十幾個國家擁有工廠,并使用一系列Aurora數(shù)據(jù)庫集群管理每個國家存儲訂單和庫存數(shù)據(jù)。當公司高層想要查看所有訂單和庫存時,數(shù)據(jù)工程師必須為每個Aurora集群構(gòu)建單獨的數(shù)據(jù)管道,將數(shù)據(jù)整合到一個中心數(shù)據(jù)倉庫中,以便數(shù)據(jù)分析師可以查詢整合后的數(shù)據(jù)集。為了實現(xiàn)這一點,數(shù)據(jù)集成團隊必須編寫代碼來連接到12個不同的集群,并分別管理和測試12個生產(chǎn)環(huán)境管道。團隊部署代碼后,還需要不斷監(jiān)控和調(diào)整該管道以優(yōu)化性能,而且一旦有任何變化,就需要在12個不同的地方進行更新。這是一項非常重復冗長的工作。
Amazon Aurora和Amazon Redshift
之間不再需要定制的ETL管道
Aurora與Amazon Redshift的Zero ETL集成將Aurora的事務數(shù)據(jù)與Amazon Redshift的分析能力結(jié)合在一起。這樣一來,構(gòu)建和管理Aurora與Amazon Redshift之間的定制ETL管道的工作量大大減少。
和傳統(tǒng)系統(tǒng)中的“數(shù)據(jù)孤島”不同,用戶必須在統(tǒng)一分析和性能之間做出權(quán)衡;而現(xiàn)在數(shù)據(jù)工程師可以將多個Aurora數(shù)據(jù)庫集群中的數(shù)據(jù)復制到同一個或新的Amazon Redshift實例中,以獲得跨多個應用程序或分區(qū)的全面洞察。Aurora中的更新會自動連續(xù)地復制到Amazon Redshift,這樣數(shù)據(jù)工程師就可以幾乎實時地獲取最新的信息。整個系統(tǒng)是無服務器的,可以根據(jù)數(shù)據(jù)量的大小動態(tài)地上下擴展,因此,企業(yè)無需管理基礎設施?,F(xiàn)在,企業(yè)可以在Aurora中真正實現(xiàn)快速、規(guī)?;厥聞辗治鲆约癆mazon Redshift中的可擴展分析,所有這些功能都集成在一個無縫的系統(tǒng)中。通過幾乎實時訪問事務數(shù)據(jù),企業(yè)可以充分利用Amazon Redshift的分析能力,如機器學習、物化視圖、數(shù)據(jù)共享,以及對多個數(shù)據(jù)存儲和數(shù)據(jù)湖的聯(lián)邦訪問,從事務及其他數(shù)據(jù)中獲取洞察。
持續(xù)提高Zero ETL的性能是亞馬遜云科技的持續(xù)性目標,例如,我們的早期就使用Zero ETL預覽版的客戶觀察到,他們的Amazon Aurora MySQL數(shù)據(jù)庫每分鐘產(chǎn)生數(shù)十萬個事務,這些事務在不到10秒的時間內(nèi)就能出現(xiàn)在他們的Amazon Redshift數(shù)據(jù)倉庫中。在這之前,他們將數(shù)據(jù)從ETL管道移動到Amazon Redshift的過程需要超過2個小時的延遲時間。通過Aurora和Redshift之間的Zero ETL集成,他們現(xiàn)在可以實現(xiàn)幾乎實時的分析。
Zero ETL使數(shù)據(jù)工程師能夠在使用過程中直接集成服務并直接查詢各種數(shù)據(jù)存儲,從而使他們能夠?qū)W⒂趶臄?shù)據(jù)中創(chuàng)造價值,而不是花費時間和資源來構(gòu)建數(shù)據(jù)管道。亞馬遜云科技將繼續(xù)致力于構(gòu)建Zero ETL未來,助力企業(yè)走向數(shù)據(jù)驅(qū)動的業(yè)務增長之路。
客戶故事
北京樂城堡科技有限公司成立于2013年,團隊成員分布于美國加州、中國北京及上海,是一家面向全球的移動互聯(lián)網(wǎng)公司,公司在深入研究細分游戲市場的基礎上,結(jié)合對深度用戶體驗的理解,專注于智能手機游戲及應用的研發(fā)和發(fā)行。
樂城堡采用Amazon Redshift產(chǎn)品作為企業(yè)的核心數(shù)據(jù)倉庫服務,通過將用戶行為的埋點數(shù)據(jù)寫入到Amazon Managed Streaming for Apache Kafka(MSK),結(jié)合Amazon Redshift內(nèi)置的Streaming Ingestion技術(shù)能夠?qū)?shù)據(jù)以準實時方式的寫入到Amazon Redshift,并在此基礎之上開展后續(xù)所需的數(shù)據(jù)分析。
Amazon MSK作為全托管、高可用的Apache Kafka服務,幫助我們快速構(gòu)建流式傳輸?shù)墓艿?,將之前端到端的?shù)據(jù)傳輸延遲從分鐘級提升到秒級,使得實時攝取和處理流數(shù)據(jù)變得簡單高效。Amazon Redshift作為企業(yè)級數(shù)據(jù)倉庫,能夠容納規(guī)模至PB級別的數(shù)據(jù),實現(xiàn)復雜查詢,保證游戲運營人員能快速獲取所需的數(shù)據(jù)與統(tǒng)計信息,無論是規(guī)模還是并發(fā)性能,對于業(yè)務的持續(xù)增長我們都能保持信心。
李明
北京樂城堡科技有限公司數(shù)據(jù)總監(jiān)