數(shù)據(jù)倉庫→湖倉一體,實時大數(shù)據(jù)平臺這樣建

來源:優(yōu)刻得云計算
作者:優(yōu)刻得云計算
時間:2024-08-16
2706
在數(shù)據(jù)驅(qū)動業(yè)務(wù)的時代,企業(yè)的數(shù)據(jù)應(yīng)用需求發(fā)生巨大轉(zhuǎn)變,開始從傳統(tǒng)的離線分析轉(zhuǎn)向?qū)崟r數(shù)據(jù)分析,同時隨著數(shù)據(jù)規(guī)模的極速增長,企業(yè)對于實時數(shù)據(jù)治理提出更高要求。

在數(shù)據(jù)驅(qū)動業(yè)務(wù)的時代,企業(yè)的數(shù)據(jù)應(yīng)用需求發(fā)生巨大轉(zhuǎn)變,開始從傳統(tǒng)的離線分析轉(zhuǎn)向?qū)崟r數(shù)據(jù)分析,同時隨著數(shù)據(jù)規(guī)模的極速增長,企業(yè)對于實時數(shù)據(jù)治理提出更高要求。

傳統(tǒng)的數(shù)據(jù)倉庫如Doris、ClickHouse、Hive在處理大規(guī)模、多源異構(gòu)數(shù)據(jù)時顯得力不從心,難以滿足企業(yè)對高效、實時、靈活數(shù)據(jù)處理與分析的迫切需求。

在此背景下,本文將為您提供如何將傳統(tǒng)數(shù)據(jù)倉庫升級為湖倉一體(Lakehouse)架構(gòu)的方案,重塑企業(yè)對于海量數(shù)據(jù)的統(tǒng)一管理與實時分析能力。湖倉一體架構(gòu)完美融合了數(shù)據(jù)湖的靈活性和數(shù)據(jù)倉庫在數(shù)據(jù)管理方面的成熟特性,為企業(yè)構(gòu)建了一個統(tǒng)一的數(shù)據(jù)平臺,幫助企業(yè)輕松應(yīng)對數(shù)據(jù)增長的挑戰(zhàn)。

40F9D54C-B3CA-4185-A5E3-A7A3D0B6A7FE.png

升級數(shù)據(jù)湖方案的關(guān)鍵步驟

關(guān)鍵階段1 擴(kuò)展數(shù)據(jù)湖核心組件

1.選擇與部署分布式存儲

分布式存儲系統(tǒng)是支撐湖倉一體架構(gòu)的基石,提供了靈活擴(kuò)展、高可用、高性能、數(shù)據(jù)本地化等特性,為企業(yè)巨量數(shù)據(jù)存儲提供保障。以下是數(shù)據(jù)湖分布式存儲常見的兩種選擇方案:

基于HDFS分布式文件系統(tǒng):適用于大規(guī)模數(shù)據(jù)存儲與處理,具有高吞吐量和容錯性。在部署時,支持按需構(gòu)建集群規(guī)模、節(jié)點配置和網(wǎng)絡(luò)拓?fù)?、靈活擴(kuò)展。

基于S3分布式對象存儲:以對象的形式提供巨量數(shù)據(jù)存儲服務(wù),提供可擴(kuò)展、冗余持久、高可用性的數(shù)據(jù)存儲和檢索解決方案。UCloudStor統(tǒng)一分布式存儲平臺提供標(biāo)準(zhǔn)S3對象存儲服務(wù)和數(shù)據(jù)統(tǒng)一生命周期管理,是構(gòu)建企業(yè)級數(shù)據(jù)湖存儲的絕佳選擇。

2.集成數(shù)據(jù)湖表管理工具

數(shù)據(jù)湖表管理工具是湖倉一體架構(gòu)的核心,常見的工具有Paimon、Iceberg、Hudi等,均提供ACID事務(wù)保持?jǐn)?shù)據(jù)一致、增量數(shù)據(jù)處理、時間旅行、優(yōu)化數(shù)據(jù)查詢性能、優(yōu)化的數(shù)據(jù)組織和管理方式等能力,并且兼容多種大數(shù)據(jù)計算引擎,如Spark、Flink、Presto/Trino等。

它們還有一些差異能力,供選擇參考:

Paimon:側(cè)重于流處理場景,支持動態(tài)表和changelog表等流式數(shù)據(jù)模型,為流處理提供事務(wù)性和高可用性及故障恢復(fù)機(jī)制,它由Flink社區(qū)推動,與Flink集成更加緊密,適用于高可用性流處理和事務(wù)性保證的場景。

Iceberg:提供一種通用的表格式,支持復(fù)雜表結(jié)構(gòu)的數(shù)據(jù)模型,其使用樂觀鎖實現(xiàn)事務(wù),對并發(fā)控制和快照隔離提供支撐,性能和可擴(kuò)展性優(yōu)異,社區(qū)活躍,適用于高性能查詢和跨多種計算引擎工作的場景。

Hudi:提供類似于關(guān)系數(shù)據(jù)庫的更新和刪除操作,以及增量數(shù)據(jù)管道,提供COW、MOR等存儲類型,支持文件和記錄級鎖,和快速Upsert操作,社區(qū)活躍,適用于頻繁進(jìn)行數(shù)據(jù)更新和刪除操作的場景。

集成這些工具前,需要充分考慮與現(xiàn)有數(shù)據(jù)倉庫的兼容性情況,數(shù)據(jù)湖管理工具特性,以及工具的社區(qū)活躍度和支持情況等因素。優(yōu)刻得智能大數(shù)據(jù)平臺USDP,提供基于Hadoop大數(shù)據(jù)生態(tài)支持,涵蓋數(shù)據(jù)采集、巨量數(shù)據(jù)湖存儲、緩存加速、流批處理平臺、OLAP數(shù)據(jù)庫、可視化調(diào)度等數(shù)據(jù)全生命周期的大數(shù)據(jù)一站式生態(tài)技術(shù)支持。

關(guān)鍵階段2 元數(shù)據(jù)統(tǒng)一管理

為實現(xiàn)數(shù)據(jù)倉庫元數(shù)據(jù)與數(shù)據(jù)湖元數(shù)據(jù)的統(tǒng)一管理,可考慮復(fù)用MPP數(shù)據(jù)庫的元數(shù)據(jù)管理服務(wù),通過其接入數(shù)據(jù)湖元數(shù)據(jù),完成數(shù)據(jù)倉庫與數(shù)據(jù)湖的元數(shù)據(jù)統(tǒng)一管理。

通過MPP數(shù)據(jù)庫的元數(shù)據(jù)管理服務(wù),采集數(shù)據(jù)湖的元數(shù)據(jù),包括表結(jié)構(gòu)、分區(qū)信息、數(shù)據(jù)格式等,使MPP數(shù)據(jù)庫元數(shù)據(jù)管理服務(wù)形成中央元數(shù)據(jù)服務(wù)形態(tài)。必要的情況下,需要擴(kuò)展相應(yīng)的連接器來解決元數(shù)據(jù)服務(wù)與部分?jǐn)?shù)據(jù)湖管理工具間不兼容的對接工作。

數(shù)據(jù)倉庫和數(shù)據(jù)湖的元數(shù)據(jù)服務(wù)整合,將采集到的數(shù)據(jù)湖元數(shù)據(jù)變化及時存儲在中央元數(shù)據(jù)服務(wù)中,確保數(shù)據(jù)倉庫和數(shù)據(jù)湖的元數(shù)據(jù)能夠?qū)崟r同步,便于原有基于數(shù)據(jù)倉庫的工作流等分析任務(wù)能夠通過元數(shù)據(jù)服務(wù)訪問數(shù)據(jù)湖中的數(shù)據(jù)。同時,建立并維護(hù)長效穩(wěn)定的元數(shù)據(jù)同步機(jī)制,結(jié)合業(yè)務(wù)數(shù)據(jù)狀況,定期檢查元數(shù)據(jù)的完整性和準(zhǔn)確性,及時處理元數(shù)據(jù)沖突和異常,維護(hù)元數(shù)據(jù)服務(wù)的高時效同步效率及穩(wěn)定性。

關(guān)鍵階段3 打通數(shù)倉與數(shù)據(jù)湖的互訪

完成前面兩個關(guān)鍵階段工作后,即可進(jìn)一步對MPP數(shù)據(jù)庫與數(shù)據(jù)湖表管理工具進(jìn)行兼容性測試,從而構(gòu)建相互兼容的湖倉統(tǒng)一平臺,確保平臺技術(shù)面的無縫兼容。

數(shù)據(jù)湖操作性測試聚焦于兩大核心:一是數(shù)倉與數(shù)據(jù)湖間數(shù)據(jù)調(diào)用的兼容性測試,二是新數(shù)據(jù)向數(shù)據(jù)湖平臺的存儲驗證。同時,可考慮利用兼容數(shù)據(jù)湖的大數(shù)據(jù)分析引擎如Spark、Flink、Hive等,構(gòu)建基于數(shù)據(jù)湖的數(shù)據(jù)分析業(yè)務(wù)。

重點測試元數(shù)據(jù)互訪、數(shù)據(jù)湖一致性(ACID事務(wù))、增量處理、時間旅行及查詢性能優(yōu)化等。根據(jù)測試結(jié)果,優(yōu)化兼容性接口、連接器等,基于兼容性測試及功能完備性驗證,真正實現(xiàn)數(shù)據(jù)在數(shù)倉與數(shù)據(jù)湖間的無縫流動。至此,我們已成功實施了從數(shù)據(jù)倉庫架構(gòu)向湖倉一體融合形態(tài)的大數(shù)據(jù)平臺升級方案。

若用戶著眼于業(yè)務(wù)的長期發(fā)展和優(yōu)化,期望將數(shù)據(jù)湖的優(yōu)勢特性全面融入整個大數(shù)據(jù)平臺,蓋新舊數(shù)據(jù)及數(shù)據(jù)處理業(yè)務(wù)員的全流程,則可進(jìn)一步考慮將現(xiàn)有數(shù)據(jù)倉庫中的數(shù)據(jù)存儲及工作流遷移至數(shù)據(jù)湖架構(gòu),并逐步淘汰舊架構(gòu)及平臺。不過,鑒于此過程的復(fù)雜性與較長時間周期,需要做好完善的遷移規(guī)劃。

方案延伸 全面轉(zhuǎn)向數(shù)據(jù)湖

由湖倉一體平臺架構(gòu),全面轉(zhuǎn)向數(shù)據(jù)湖架構(gòu),可在上述方案基礎(chǔ)上,開展數(shù)據(jù)從數(shù)倉至數(shù)據(jù)湖的跨存儲平臺數(shù)據(jù)遷移,重點保障相關(guān)數(shù)據(jù)的元數(shù)據(jù)一致性及數(shù)據(jù)自身的一致性。

同時,對原有基于數(shù)據(jù)倉庫的數(shù)據(jù)分析工作流,逐一向數(shù)據(jù)遷移后的數(shù)據(jù)湖平臺進(jìn)行割接,采用邊遷移邊驗證、邊驗證邊割接測試的策略,并根據(jù)業(yè)務(wù)查詢特點和數(shù)據(jù)特性,實施索引優(yōu)化、查詢重寫等操作,充分優(yōu)化查詢性能;完成對整個數(shù)據(jù)倉庫從數(shù)據(jù)到分析業(yè)務(wù)邏輯的過渡和遷移,直至充分運(yùn)用數(shù)據(jù)湖架構(gòu)完全承載全量數(shù)據(jù)存儲與分析業(yè)務(wù)。

910488BD-5826-4FDC-9467-E6289437B483.png

優(yōu)刻得USDP智能大數(shù)據(jù)產(chǎn)品除提供完善的大數(shù)據(jù)生態(tài)支持,以及對新型數(shù)據(jù)分析框架及服務(wù)支持的同時,還可根據(jù)用戶現(xiàn)有大數(shù)據(jù)平臺架構(gòu)及數(shù)據(jù)、工作流等梳理分析,為用戶制定全面完備的遷移方案、遷移實施及過程保障工作。

截至目前,USDP已經(jīng)成功服務(wù)了四川國稅局、暉致醫(yī)藥、達(dá)美樂等各領(lǐng)域企業(yè)用戶,積累了豐富的大數(shù)據(jù)平臺實踐和服務(wù)經(jīng)驗,能夠為用戶提供持續(xù)性技術(shù)保障,助力他們實現(xiàn)數(shù)據(jù)倉庫架構(gòu)向數(shù)據(jù)湖架構(gòu)的平滑過度。

本文簡要闡述了企業(yè)大數(shù)據(jù)平臺從數(shù)據(jù)倉庫架構(gòu)升級至數(shù)據(jù)湖架構(gòu)的思路和方法。

立即登錄,閱讀全文
原文鏈接:點擊前往 >
文章來源:優(yōu)刻得云計算
版權(quán)說明:本文內(nèi)容來自于優(yōu)刻得云計算,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多