伴隨5G、大數(shù)據(jù)、AI、IoT的飛速發(fā)展,數(shù)據(jù)呈現(xiàn)大規(guī)模、多樣性的極速增長,為了應(yīng)對多變的業(yè)務(wù)訴求,政企客戶對數(shù)據(jù)處理分析的實時性和融合性提出了更高的要求,“湖倉一體”的概念應(yīng)運而生,它打破數(shù)據(jù)湖與數(shù)倉間的壁壘,使得割裂數(shù)據(jù)融合統(tǒng)一,減少數(shù)據(jù)分析中的搬遷,實現(xiàn)統(tǒng)一的數(shù)據(jù)管理。
早在2020年5月份的華為全球分析師大會上,華為云CTO張宇昕提出了“湖倉一體”概念,在隨后的華為云與計算城市峰會上,“湖倉一體”理念跟隨華為云FusionInsight智能數(shù)據(jù)湖在南京、深圳、西安、重慶等地均有呈現(xiàn),在剛結(jié)束的HC2020上,張宇昕在發(fā)布新一代智能數(shù)據(jù)湖華為云FusionInsight時再次提到了湖倉一體理念。那我們就來看看湖倉一體的來世今生。
數(shù)據(jù)湖和數(shù)據(jù)倉庫的發(fā)展歷程和挑戰(zhàn)
早在1990年,比爾·恩門(Bill Inmon)提出了數(shù)據(jù)倉庫,主要是將組織內(nèi)信息系統(tǒng)聯(lián)機事務(wù)處理(OLTP)常年累積的大量資料,按數(shù)據(jù)倉庫特有的資料儲存架構(gòu)進行聯(lián)機分析處理(OLAP)、數(shù)據(jù)挖掘(Data Mining)等分析,幫助決策者快速有效地從大量資料中分析出有價值的資訊,以利決策制定及快速響應(yīng)外在環(huán)境變化,幫助構(gòu)建商業(yè)智能(BI)。
大約十年前,企業(yè)開始構(gòu)建數(shù)據(jù)湖來應(yīng)對大數(shù)據(jù)時代,它通常把所有的企業(yè)數(shù)據(jù)統(tǒng)一存儲,既包括源系統(tǒng)中的原始副本,也包括轉(zhuǎn)換后的數(shù)據(jù),比如那些用于報表,可視化,數(shù)據(jù)分析和機器學(xué)習(xí)的數(shù)據(jù)。
縱觀數(shù)據(jù)湖與數(shù)據(jù)倉庫的技術(shù)發(fā)展,不難發(fā)現(xiàn)兩者有著各自的優(yōu)劣,具體表現(xiàn)如下:
企業(yè)在進行系統(tǒng)架構(gòu)設(shè)計選型時,需要從具體的分析場景出發(fā),單一的模式已經(jīng)無法滿足企業(yè)發(fā)展的業(yè)務(wù)訴求,集中表現(xiàn)在以下兩個痛點:
數(shù)據(jù)湖主要以離線批量計算為主,因為不支持數(shù)據(jù)倉庫的數(shù)據(jù)管理能力,難以提高數(shù)據(jù)質(zhì)量;數(shù)據(jù)入湖時效差不支持實時更新,數(shù)據(jù)無法強一致性;主題建模不友好,無法直接歷史拉鏈建模;同時交互分析通常將數(shù)據(jù)搬遷到數(shù)據(jù)倉庫平臺,造成分析鏈路長,數(shù)據(jù)冗余存儲;批&流等場景融合不夠,無法滿足企業(yè)的海量數(shù)據(jù)處理訴求。
數(shù)據(jù)倉庫滿足不了非結(jié)構(gòu)化數(shù)據(jù)的分析需求,性價比不高;同時倉&湖間難以互聯(lián)互通,數(shù)據(jù)協(xié)同效率較低,無法支持跨平臺透明訪問,形成了事實上的數(shù)據(jù)孤島,找數(shù)困難;缺乏全局數(shù)據(jù)視圖,不同平臺接口差異和不同開發(fā)管理工具,造成用戶開發(fā)使用復(fù)雜,數(shù)據(jù)分別管理維護代價高體驗差。
數(shù)據(jù)湖和數(shù)據(jù)倉庫正在從兩條技術(shù)演進路線走向融合
綜上,數(shù)據(jù)湖和數(shù)據(jù)倉庫在企業(yè)數(shù)據(jù)分析場景分別承擔一湖一倉的重要角色,形成了完整的數(shù)據(jù)分析生態(tài)系統(tǒng),上述企業(yè)場景面臨的2個關(guān)鍵痛點也在驅(qū)動數(shù)據(jù)湖和數(shù)據(jù)倉庫在技術(shù)演進上走向融合:
第一個融合方向是基于Hadoop體系的數(shù)據(jù)湖向數(shù)據(jù)倉庫能力擴展,湖中建倉,從DataLake進化到LakeHouse。LakeHouse結(jié)合了數(shù)據(jù)湖和數(shù)據(jù)倉庫特點,直接在用于數(shù)據(jù)湖的低成本存儲上實現(xiàn)與數(shù)據(jù)倉庫中類似的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)管理功能。目前業(yè)界已經(jīng)涌現(xiàn)了一些LakeHouse產(chǎn)品,如NexFlix開源Iceberg、Uber開源Hudi、Databricks的DeltaLake。
圖2從DataLake進化到LakeHouse,數(shù)據(jù)湖擴展數(shù)倉能力
以目前生態(tài)發(fā)展迅速的Apache Hudi為例:統(tǒng)一數(shù)據(jù)存儲,分布式存儲不同應(yīng)用所需的各種類型數(shù)據(jù);數(shù)倉模式執(zhí)行和治理,實現(xiàn)事務(wù)&更新機制,保證數(shù)據(jù)完整性和一致性,具有健壯的治理&審計機制;支持各種分析引擎,統(tǒng)一數(shù)據(jù)存儲通過開放和標準化的存儲格式(如Parquet),提供API以便各類工具和引擎(包括機器學(xué)習(xí)和Python/R庫)直接有效地訪問數(shù)據(jù)。
雖然LakeHouse并不能完全替代數(shù)據(jù)倉庫,但通過增強性能,支持實時入湖、建模、交互分析等場景,將在企業(yè)分析環(huán)境中發(fā)揮更大作用。
第二個融合方向是數(shù)據(jù)湖和數(shù)據(jù)倉庫協(xié)同起來向湖倉一體的融合分析架構(gòu)發(fā)展,隨著企業(yè)數(shù)據(jù)量快速增長,不僅是結(jié)構(gòu)化數(shù)據(jù),也有非結(jié)構(gòu)化數(shù)據(jù),同時提出了對搜索/機器學(xué)習(xí)更多的能力要求,使得原來數(shù)倉技術(shù)不能夠有效的處理復(fù)雜場景,為此需擴展原有系統(tǒng),引入Hadoop大數(shù)據(jù)平臺實現(xiàn)新類型數(shù)據(jù)、新業(yè)務(wù)場景的支持。在這個背景下由Gartner在2011年提出邏輯數(shù)據(jù)倉庫的概念,預(yù)測企業(yè)數(shù)據(jù)分析傾向于轉(zhuǎn)向一種更加邏輯化的架構(gòu),利用分布式處理、數(shù)據(jù)虛擬化以及元數(shù)據(jù)管理等技術(shù),實現(xiàn)邏輯統(tǒng)一物理分開的協(xié)同體系。
圖3邏輯數(shù)倉的高階架構(gòu)
湖倉一體可以認為是邏輯數(shù)據(jù)倉庫架構(gòu)理念下針對Hadoop數(shù)據(jù)湖和MPPDB數(shù)據(jù)倉庫的融合架構(gòu)的最好詮釋,數(shù)據(jù)對用戶將完全實現(xiàn)虛擬化,以邏輯統(tǒng)一的數(shù)據(jù)分析系統(tǒng)為企業(yè)提供數(shù)據(jù)分析服務(wù):
用戶使用層面提供統(tǒng)一元數(shù)據(jù)管理和數(shù)據(jù)視圖,實現(xiàn)全局數(shù)據(jù)可見可查,支持標準統(tǒng)一訪問接口簡化用戶開發(fā),提供統(tǒng)一開發(fā)和治理的工具體系。
平臺層面Hadoop與MPPDB具備數(shù)據(jù)共享和跨庫分析能力,支持互聯(lián)互通、計算下推、協(xié)同計算,實現(xiàn)數(shù)據(jù)多平臺之間透明流動。
華為云FusionInsight湖倉一體解決方案參考架構(gòu)
華為云FusionInsight智能數(shù)據(jù)湖涵蓋了分布式存儲、大數(shù)據(jù)、數(shù)據(jù)倉庫、數(shù)據(jù)治理等,融合了上述兩個技術(shù)演進方向,為企業(yè)用戶提供云原生湖倉一體解決方案,整體的參考架構(gòu)如下:
圖4華為云FusionInsight湖倉一體解決方案參考架構(gòu)
下面一起來看看:
數(shù)據(jù)存儲層:通過OBS統(tǒng)一管理湖&倉的存儲底座,將存儲在EC(Erasure Code糾錯碼)、可靠性方面的優(yōu)勢融入進了大數(shù)據(jù)生態(tài):
云原生架構(gòu)領(lǐng)先:基于云原生架構(gòu)的OBS存儲,具有高帶寬,大并發(fā),分布式元數(shù)據(jù)等特征,因此相同成本的華為存算分離的湖倉一體化集群,數(shù)據(jù)讀寫性能領(lǐng)先業(yè)界30%。
存儲計算分離有效降低TCO:支持大比例EC,副本數(shù)從3最低可降低至1.09,TCO下降20%+。
統(tǒng)一元數(shù)據(jù)管理實現(xiàn)湖倉共享存儲資源池:通過獨立的Data Lake Catalog提供統(tǒng)一元數(shù)據(jù)管理,兼容HiveMetastore接口,可以無縫對接各類大數(shù)據(jù)組件。實現(xiàn)針對同一份元數(shù)據(jù)定義支持各類場景、對象、文件、大數(shù)據(jù)等不同協(xié)議間的數(shù)據(jù)共享,讓數(shù)據(jù)倉庫、數(shù)據(jù)湖、圖引擎、AI等多種計算引擎共享統(tǒng)一的數(shù)據(jù)存儲池。此方案不僅消除了孤立系統(tǒng)中的數(shù)據(jù)副本,還使得客戶可以按照業(yè)務(wù)按需使用計算存儲資源,不僅降低了CAPEX,還簡化了運維,從而達成最佳TCO。同時,Data LakeCatalog開放接口,支持和第三方的計算引擎層、數(shù)據(jù)治理層對接。
計算引擎層:把事務(wù)能力引入數(shù)據(jù)湖,通過HetuEngine標準SQL實現(xiàn)跨域多源統(tǒng)一訪問,湖&倉數(shù)據(jù)互通協(xié)同計算,數(shù)據(jù)免搬遷:
CarbonData&Hudi數(shù)據(jù)實時入湖,實現(xiàn)數(shù)據(jù)湖事務(wù)能力:企業(yè)內(nèi)部許多數(shù)據(jù)管道通常會并發(fā)讀寫數(shù)據(jù),我們通過CarbonData&Hudi數(shù)據(jù)存儲引擎實現(xiàn)數(shù)據(jù)實時、增量更新,數(shù)據(jù)T+0實時入湖,大幅縮短傳統(tǒng)T+1、T+2時延;引入的增量處理框架,實現(xiàn)了數(shù)據(jù)湖事務(wù)能力,支持入湖過程中的Update/Delete等。
HetuEngine支持跨源跨域統(tǒng)一SQL訪問,簡單易用:用戶層基于統(tǒng)一的標準SQL接口,對接多個數(shù)據(jù)源(HDFS,HBase,DWS等),提供秒級交互式訪問,滿足各種統(tǒng)計分析、多表Join關(guān)聯(lián)等,讓分析建模人員數(shù)據(jù)分析更容易,降低訪問門檻。
HetuEngine&DWS-Express打破數(shù)據(jù)墻,數(shù)據(jù)免搬遷創(chuàng)新更敏捷:支持數(shù)據(jù)湖與數(shù)據(jù)倉庫間的數(shù)據(jù)互聯(lián)互通、跨平臺協(xié)同計算,數(shù)據(jù)免搬遷。HetuEngine在湖內(nèi)基于統(tǒng)一數(shù)據(jù)目錄,實現(xiàn)高并發(fā),高性能的交互式查詢,基于一份數(shù)據(jù)進行批、流、交互式融合分析,貼源加工、整合關(guān)聯(lián)、主題加工等都在湖內(nèi),數(shù)據(jù)不出湖,分析鏈路短,加速業(yè)務(wù)創(chuàng)新;用戶可使用DWS-Express提供由成百上千節(jié)點組成的加速集群,對存儲在OBS上的海量數(shù)據(jù)進行在線分析,相比本地托管集群,效率提升數(shù)百倍。
自研Superior調(diào)度器支持單集群2萬+節(jié)點規(guī)模,業(yè)界最佳:在一個集群內(nèi),通過華為自研的Superior調(diào)度器支持各種工作負載統(tǒng)一調(diào)度,包括數(shù)據(jù)科學(xué)、機器學(xué)習(xí)以及SQL和分析,調(diào)度速率達35萬Container/s,資源利用率達90%+,大幅降低企業(yè)投入成本。
數(shù)據(jù)冷熱分級存儲實現(xiàn)更高效的全生命周期管理:DWS具備與OBS的雙向互通的能力,既能直接讀取OBS上的海量歷史數(shù)據(jù),也能夠直接寫入數(shù)據(jù)到OBS。通過這個特性,我們可以對企業(yè)中的海量數(shù)據(jù)進行更加高效的全生命周期管理,分析中經(jīng)常使用到的熱/溫數(shù)據(jù)存放在DWS中,較少使用的冷數(shù)據(jù)存放到OBS中,兼顧企業(yè)對分析性能和存儲經(jīng)濟性的訴求。
無縫銜接AI挖掘更多數(shù)據(jù)價值:深度優(yōu)化一站式開發(fā)平臺ModelArts&分布式圖計算引擎GES提高開發(fā)效率。提供基于數(shù)據(jù)湖的AI訓(xùn)練推理能力,減少數(shù)據(jù)搬遷次數(shù),基于100+機器學(xué)習(xí)算子和NLP算法,實現(xiàn)海量數(shù)據(jù)快速價值挖掘,滿足場景預(yù)測、自然語言處理及企業(yè)知識圖譜等應(yīng)用;讓GES更快捷地為金融等場景提供關(guān)系網(wǎng)絡(luò)分析等服務(wù)。
運營管理層:通過DAYU實現(xiàn)了湖&倉統(tǒng)一的數(shù)據(jù)集成、開發(fā)、目錄、治理、開放服務(wù)等的運營管理:
數(shù)據(jù)集成:實現(xiàn)多源異構(gòu)數(shù)據(jù)高效入湖,支持批/流/實時數(shù)據(jù)多種方式接入。其中,批量數(shù)據(jù)遷移基于分布式計算框架,利用并行化處理技術(shù),支持用戶穩(wěn)定高效地對海量數(shù)據(jù)進行移動,實現(xiàn)不停服數(shù)據(jù)遷移,快速構(gòu)建所需的數(shù)據(jù)架構(gòu);流和實時數(shù)據(jù)接入每小時可從數(shù)十萬種數(shù)據(jù)源(例如日志和定位追蹤事件、網(wǎng)站點擊流、社交媒體源等)中連續(xù)捕獲、傳送和存儲數(shù)TB數(shù)據(jù)。
數(shù)據(jù)開發(fā):提供一站式敏捷數(shù)據(jù)開發(fā)平臺,提供可視化的圖形開發(fā)界面、豐富的數(shù)據(jù)開發(fā)類型(腳本開發(fā)和作業(yè)開發(fā))、全托管的作業(yè)調(diào)度和運維監(jiān)控能力,內(nèi)置行業(yè)數(shù)據(jù)處理pipeline,一鍵式開發(fā),全流程可視化,支持多人在線協(xié)同開發(fā),支持管理多種大數(shù)據(jù)云服務(wù),極大地降低了用戶使用大數(shù)據(jù)的門檻,幫助用戶快速構(gòu)建數(shù)據(jù)湖數(shù)據(jù)處理中心。
數(shù)據(jù)治理:為企業(yè)提供數(shù)據(jù)體系標準和數(shù)據(jù)規(guī)范定義的方法論,統(tǒng)一數(shù)據(jù)語言和數(shù)據(jù)建模;為普通業(yè)務(wù)人員提供高效、準確的數(shù)據(jù)搜索工具,高效找到數(shù)據(jù);提供技術(shù)元數(shù)據(jù)與業(yè)務(wù)元數(shù)據(jù)的關(guān)聯(lián),業(yè)務(wù)人員快速讀懂數(shù)據(jù);為數(shù)據(jù)提供有效的質(zhì)量管控和評估手段,數(shù)據(jù)可信質(zhì)量高。
數(shù)據(jù)開放:為數(shù)據(jù)湖搭建統(tǒng)一的數(shù)據(jù)服務(wù)總線,幫助企業(yè)統(tǒng)一管理對內(nèi)對外的API服務(wù),支撐業(yè)務(wù)主題/畫像/指標的訪問、查詢和檢索,提升數(shù)據(jù)消費體驗和效率;支持100+開放API,擁有10+行業(yè)模板,使能行業(yè)ISV快速集成,助力客戶數(shù)據(jù)標準資產(chǎn)沉淀。
綜上所述,正是在三層架構(gòu)都打通了湖倉的技術(shù)壁壘,我們才看到了真正的湖倉一體:
數(shù)據(jù)存儲層基于云原生領(lǐng)先架構(gòu),存算分離有效降低TCO,統(tǒng)一元數(shù)據(jù)管理實現(xiàn)湖倉共享存儲資源池,針對同一份元數(shù)據(jù)定義支持各種場景,提供API方便各類工具和引擎(包括機器學(xué)習(xí)、Python、R等)直接有效地訪問數(shù)據(jù),這是實現(xiàn)湖倉一體的一個關(guān)鍵點;
計算引擎層為數(shù)據(jù)湖增加了事務(wù)能力提升了數(shù)據(jù)質(zhì)量;利用HetuEngine通過標準SQL訪問跨域多源數(shù)據(jù),實現(xiàn)湖&倉數(shù)據(jù)關(guān)聯(lián)分析協(xié)同計算,簡單易用;打破數(shù)據(jù)墻,在湖內(nèi)基于統(tǒng)一數(shù)據(jù)目錄,可基于數(shù)據(jù)湖實現(xiàn)融合分析&AI訓(xùn)練推理,減少數(shù)據(jù)搬遷,實現(xiàn)海量數(shù)據(jù)快速價值挖掘。
運營管理層則提供統(tǒng)一的數(shù)據(jù)開發(fā)和治理環(huán)境,具備安全管理功能,支持多引擎任務(wù)統(tǒng)一開發(fā)和編排,數(shù)據(jù)統(tǒng)一建模和質(zhì)量監(jiān)測,實現(xiàn)湖倉一致的開發(fā)治理體驗。
未來展望
華為云FusionInsight智能數(shù)據(jù)湖基于客戶需求和技術(shù)演進趨勢持續(xù)創(chuàng)新,為企業(yè)客戶提供湖倉一體解決方案,致力于打造業(yè)界最佳的數(shù)據(jù)底座,讓企業(yè)業(yè)務(wù)的創(chuàng)新更敏捷,業(yè)務(wù)洞察更準確,加速釋放數(shù)據(jù)價值,和數(shù)據(jù)使能協(xié)同更好地服務(wù)千行萬業(yè)!