9月23日至25日,華為全聯(lián)接2021以“深耕數(shù)字化”為主題,各行業(yè)領(lǐng)軍人物分享最新成果與實(shí)踐。其中在“華為云FusionInsight智能數(shù)據(jù)湖打造千行百業(yè)數(shù)據(jù)底座”專題演講中,華為云FusionInsight技術(shù)專家,發(fā)表“華為云FusionInsight智能數(shù)據(jù)湖版本新能力解讀”演講。
進(jìn)入智能數(shù)據(jù)時(shí)代,業(yè)界建設(shè)數(shù)據(jù)湖的十大共識(shí)
經(jīng)過(guò)數(shù)十年的快速發(fā)展,大數(shù)據(jù)處理技術(shù)已日漸成熟,圍繞數(shù)據(jù)湖衍生技術(shù)多如繁星,業(yè)界在多年的探索之中,也對(duì)未來(lái)數(shù)據(jù)湖形態(tài)有了十個(gè)重要共識(shí),如充分利用云技術(shù)實(shí)現(xiàn)云原生的數(shù)據(jù)分析,支持混合云及多云部署,各種類型的數(shù)據(jù)、支持更多的數(shù)據(jù)用戶類型,提供不同的數(shù)據(jù)引擎、不同的數(shù)據(jù)處理能力等,這些需求對(duì)大數(shù)據(jù)技術(shù)創(chuàng)新提出了諸多挑戰(zhàn)。
面對(duì)這些挑戰(zhàn),華為云FusionInsight發(fā)布智能數(shù)據(jù)湖最新版本8.1.0去應(yīng)對(duì)新時(shí)代對(duì)大數(shù)據(jù)的這些技術(shù)訴求。
華為云FusionInsight提供湖倉(cāng)一體的解決方案,兼顧歷史與未來(lái)
華為云FusionInisght智能數(shù)據(jù)湖為企業(yè)客戶提供完整的大數(shù)據(jù)云服務(wù)產(chǎn)品組合,有單集群最大支持5W節(jié)點(diǎn)的云原生數(shù)據(jù)湖MRS服務(wù)和全球最大的商用部署的云數(shù)據(jù)倉(cāng)庫(kù)DWS服務(wù),MRS和DWS既可以靈活按需部署,也可以融合演進(jìn)到湖倉(cāng)一體的架構(gòu);同時(shí)面向不斷增長(zhǎng)的數(shù)據(jù)探索分析、新型的圖分析、可信計(jì)算等訴求,提供了完全托管式的DLI數(shù)據(jù)湖探索服務(wù),完全自研的高性能一體化的GES圖計(jì)算服務(wù)、創(chuàng)新的可信智能計(jì)算服務(wù)TICS,并提供源自華為自身數(shù)字化轉(zhuǎn)型經(jīng)驗(yàn)沉淀的DGC數(shù)據(jù)湖治理中心服務(wù),用于海量數(shù)據(jù)的數(shù)據(jù)治理、離線分析、實(shí)時(shí)分析、數(shù)倉(cāng)集市、多模分析等場(chǎng)景,幫助客戶構(gòu)建一站式的大數(shù)據(jù)分析平臺(tái),釋放企業(yè)數(shù)據(jù)價(jià)值。
MRS云原生數(shù)據(jù)湖提供三湖一集市能力,讓數(shù)據(jù)分析更敏捷
MRS云原生數(shù)據(jù)湖作為FusionInsight主打的云服務(wù),是一款Lakehouse架構(gòu)的云原生數(shù)據(jù)湖服務(wù),解決傳統(tǒng)大數(shù)據(jù)平臺(tái)零散式建設(shè)、供數(shù)鏈路長(zhǎng)、人工搬遷慢等問題,一個(gè)架構(gòu)實(shí)現(xiàn)離線、實(shí)時(shí)、邏輯三種數(shù)據(jù)湖:
? 離線數(shù)據(jù)湖:提供交互式、BI、AI等多個(gè)計(jì)算引擎,基于云原生存儲(chǔ)實(shí)現(xiàn)存算分離架構(gòu),使得云原生數(shù)據(jù)湖的架構(gòu)更靈活,業(yè)務(wù)更敏捷。同時(shí)還支持單集群5萬(wàn)(通過(guò)集群聯(lián)邦,支持10萬(wàn)+規(guī)模)節(jié)點(diǎn)的超大規(guī)模,支持集群滾動(dòng)升級(jí),保障關(guān)鍵業(yè)務(wù)升級(jí)不中斷。
? 實(shí)時(shí)數(shù)據(jù)湖:提供生成數(shù)據(jù)CDL實(shí)時(shí)捕獲入湖、Hudi數(shù)據(jù)湖存儲(chǔ)引擎、ClickHouse毫秒級(jí)OLAP分析等構(gòu)建實(shí)時(shí)更新處理能力,使得供數(shù)時(shí)效從T+1到T+0。
? 邏輯數(shù)據(jù)湖:HetuEngine提供跨湖、跨倉(cāng)、跨云的協(xié)同分析,實(shí)現(xiàn)湖倉(cāng)一體,減少80%數(shù)據(jù)搬遷,協(xié)同分析提效50倍。
MRS云原生數(shù)據(jù)湖實(shí)現(xiàn)數(shù)據(jù)全鏈路實(shí)時(shí)分析,價(jià)值兌現(xiàn)從T+1走向T+0
在華為云FusionInsight 8.1.0 新版本中,MRS云原生數(shù)據(jù)湖實(shí)現(xiàn)了數(shù)據(jù)全鏈路實(shí)時(shí)分析,讓價(jià)值兌現(xiàn)從T+1走向T+0。傳統(tǒng)方案從數(shù)據(jù)接入、數(shù)據(jù)入湖到數(shù)據(jù)入湖,不支持增量數(shù)據(jù)更新,數(shù)據(jù)處理采用離線批處理方式,數(shù)據(jù)分析則需提前制定各種CUBE,預(yù)聚合的方式費(fèi)時(shí)費(fèi)力,導(dǎo)致數(shù)據(jù)分析時(shí)效性T+1,無(wú)法滿足新時(shí)代的業(yè)務(wù)訴求。
為解決上述問題,MRS云原生數(shù)據(jù)湖通過(guò)創(chuàng)新的CDL組件支持直接讀取Binlog日志實(shí)時(shí)入湖,結(jié)合Flink/Spark實(shí)現(xiàn)數(shù)據(jù)實(shí)時(shí)合并、實(shí)時(shí)加工,打通信息生產(chǎn)到分析平臺(tái)的最后一公里;通過(guò)引入Hudi,支持?jǐn)?shù)據(jù)更新、數(shù)據(jù)刪除,還有ACID能力,保證數(shù)據(jù)實(shí)時(shí)入湖更新操作;通過(guò)引入ClickHouse,可以把數(shù)據(jù)拉到一個(gè)大寬表內(nèi)去做分析,只需要對(duì)接后端的BI工具,就可以自助式的完成報(bào)表開發(fā)。同時(shí),ClickHouse支持實(shí)時(shí)OLAP,可實(shí)現(xiàn)毫秒級(jí)實(shí)時(shí)分析,且ClickHouse不需要建Cube,只要對(duì)接BI工具就能輕松完成新業(yè)務(wù)的開發(fā)。
MRS云原生數(shù)據(jù)湖通過(guò)CDL+Hudi+Clickhouse的新方案,實(shí)現(xiàn)全鏈路實(shí)時(shí)分析,快速構(gòu)筑實(shí)時(shí)數(shù)據(jù)湖能力。
IoTDB工業(yè)物聯(lián)網(wǎng)時(shí)序數(shù)據(jù)庫(kù),云邊端協(xié)同輕松構(gòu)建時(shí)序數(shù)據(jù)集市
MRS云原生數(shù)據(jù)湖提供一架構(gòu)三湖能力的同時(shí),還支持構(gòu)建多模態(tài)數(shù)據(jù)集市,在新版本中引入了MRS IoTDB工業(yè)物聯(lián)網(wǎng)時(shí)序數(shù)據(jù)庫(kù),實(shí)現(xiàn)云邊端協(xié)同輕松構(gòu)建時(shí)序數(shù)據(jù)集市。MRS IoTDB是由華為云FusionInsight團(tuán)隊(duì)與是清華大學(xué)共同開發(fā),聚焦工業(yè)物聯(lián)網(wǎng)領(lǐng)域的工業(yè)復(fù)雜時(shí)序數(shù)據(jù)的處理,如千萬(wàn)級(jí)超大規(guī)模測(cè)點(diǎn)處理、亂序處理、多序列對(duì)齊、序列分割、子序列匹配、旋轉(zhuǎn)門壓縮、降采樣存儲(chǔ)等專業(yè)時(shí)序需求,解決通用數(shù)據(jù)庫(kù)在超大規(guī)模復(fù)雜時(shí)序場(chǎng)景的功能短板和性能瓶頸,高效管理海量工業(yè)物聯(lián)網(wǎng)數(shù)據(jù),形成跨越端、邊、云的工業(yè)物聯(lián)網(wǎng)大數(shù)據(jù)的利器,在海量時(shí)序數(shù)據(jù)處理場(chǎng)景發(fā)揮其“專、快、穩(wěn)、省、易”能力。在實(shí)際應(yīng)用落地中,一臺(tái)IoTDB實(shí)例就能替代13臺(tái)傳統(tǒng)時(shí)序數(shù)據(jù)庫(kù),性能優(yōu)勢(shì)明顯。
災(zāi)備:兩地三中心高可用,確保業(yè)務(wù)連續(xù)性,SLA 99.999%
在增強(qiáng)數(shù)據(jù)湖平臺(tái)全鏈路實(shí)時(shí)分析與工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)庫(kù)能力的基礎(chǔ)上,MRS云原生數(shù)據(jù)湖在數(shù)據(jù)可靠性上再次進(jìn)行增強(qiáng),提供了三個(gè)容災(zāi)方案:
提供原有的數(shù)據(jù)備份能力,支持將關(guān)鍵數(shù)據(jù)備份到異地中,一旦出現(xiàn)集群故障導(dǎo)致數(shù)據(jù)丟失,則可以將備份數(shù)據(jù)恢復(fù)回來(lái)。
新增了單集群跨AZ高可用方案:支持將一個(gè)集群部署在多個(gè)機(jī)房中,通過(guò)副本放置策略確保數(shù)據(jù)副本存放在不同的機(jī)房,通過(guò)YARN的任務(wù)調(diào)度機(jī)制的優(yōu)化確保任務(wù)優(yōu)先訪問任務(wù)所在機(jī)房的數(shù)據(jù)副本,當(dāng)一個(gè)機(jī)房出現(xiàn)故障后,任務(wù)會(huì)自動(dòng)切換到其他機(jī)房的機(jī)器上,從而確保單AZ故障時(shí)數(shù)據(jù)不丟失,關(guān)鍵業(yè)務(wù)不中斷。
同時(shí),還新增了異地主備容災(zāi)方案:也就是分別建設(shè)主、備兩個(gè)MRS集群,主集群數(shù)據(jù)會(huì)周期或?qū)崟r(shí)自動(dòng)同步到備集群上。當(dāng)主集群故障時(shí),將業(yè)務(wù)倒換到備集群上,確保業(yè)務(wù)快速恢復(fù)。
通過(guò)以上三種方案,MRS云原生數(shù)據(jù)湖可以實(shí)現(xiàn)從簡(jiǎn)單的數(shù)據(jù)備份到跨AZ高可用,到異地容災(zāi)的完整場(chǎng)景覆蓋,業(yè)務(wù)可以根據(jù)自身業(yè)務(wù)特點(diǎn)以及需要應(yīng)對(duì)的故障場(chǎng)景,靈活選擇適合自己的方案。
DWS:新一代全場(chǎng)景云數(shù)據(jù)倉(cāng)庫(kù)
華為云FusionInsight智能數(shù)據(jù)湖另一主打云服務(wù)為DWS云數(shù)據(jù)倉(cāng)庫(kù),它是一款具備分析及混合負(fù)載能力的云數(shù)據(jù)倉(cāng)庫(kù)服務(wù),具有高性能、高擴(kuò)展、高可用等特點(diǎn),廣泛應(yīng)用于汽車、制造、零售、互聯(lián)網(wǎng)、金融、政府、電信等行業(yè)的核心分析決策系統(tǒng)。它不僅僅是把數(shù)倉(cāng)搬上云這么簡(jiǎn)單,而是真正面向未來(lái)的云原生架構(gòu)的數(shù)倉(cāng)服務(wù)。
作為全球最大的金融數(shù)倉(cāng),DWS通過(guò)了信通院?jiǎn)渭?048節(jié)點(diǎn)的規(guī)模認(rèn)證,當(dāng)前已經(jīng)商用的最大集群有480個(gè)節(jié)點(diǎn)。
DWS通過(guò)一套內(nèi)核一套架構(gòu)同時(shí)支持標(biāo)準(zhǔn)數(shù)倉(cāng)、實(shí)時(shí)數(shù)倉(cāng)和云數(shù)倉(cāng),匹配了用戶全場(chǎng)景需求。
DGC:一站式數(shù)據(jù)開發(fā)與治理,讓開發(fā)者輕松駕馭數(shù)據(jù)
華為云FusionInsight智能數(shù)據(jù)湖不僅為政企客戶提供湖倉(cāng)一體的架構(gòu),還有DGC數(shù)據(jù)湖治理中心服務(wù),提供一站式數(shù)據(jù)開發(fā)集成管理平臺(tái),提供統(tǒng)一的數(shù)據(jù)治理工具,加速數(shù)據(jù)資產(chǎn)沉淀。
DGC的特性主要集中在平臺(tái)能力和生態(tài)兩個(gè)方面:
在平臺(tái)能力方面:DGC提供一站式數(shù)據(jù)開發(fā)集成管理平臺(tái),支持40多種異構(gòu)數(shù)據(jù)源、全拖拽式開發(fā)、多維實(shí)時(shí)搜索、0代碼API開發(fā)等能力;并提供基于華為10多年數(shù)據(jù)治理經(jīng)驗(yàn)沉淀出的數(shù)據(jù)架構(gòu)、標(biāo)準(zhǔn)規(guī)范、數(shù)據(jù)開發(fā)、數(shù)據(jù)質(zhì)量等數(shù)據(jù)治理能力;
在生態(tài)建設(shè)方面:DGC通過(guò)開放API,使能行業(yè) ISV 快速集成開發(fā);通過(guò)合作伙伴提供數(shù)據(jù)標(biāo)準(zhǔn)、模型、指標(biāo)、接口等行業(yè)數(shù)據(jù)模型,幫助企業(yè)快速構(gòu)筑數(shù)據(jù)治理能力。
華為云FusionInsight深耕大數(shù)據(jù)10年+,持續(xù)創(chuàng)新引領(lǐng)大數(shù)據(jù)技術(shù)發(fā)展
華為云FusionInsight持續(xù)投入10年+,堅(jiān)持開放路線,在扎根社區(qū)的同時(shí),也積極回饋社區(qū),為行業(yè)新技術(shù)發(fā)展貢獻(xiàn)力量;同時(shí),華為云FusionInsight智能數(shù)據(jù)湖將持續(xù)貫徹“平臺(tái)+生態(tài)”戰(zhàn)略,攜手800+合作伙伴,服務(wù)于全球60+國(guó)家和地區(qū)3000+政企客戶,已廣泛應(yīng)用于政府、金融、運(yùn)營(yíng)商、大企業(yè)等行業(yè)。