4月26日,在華為開發(fā)者大會2021(Cloud)上,華為云數(shù)據(jù)使能DAYU主力產(chǎn)品GaussDB(DWS)首席架構(gòu)師解讀了GaussDB(DWS)的一站式數(shù)據(jù)分析能力。
隨著大數(shù)據(jù)觀念逐步深入,數(shù)據(jù)分析帶來的價值愈發(fā)被大家重視起來。從PC時代,到互聯(lián)網(wǎng)時代、移動互聯(lián)網(wǎng)時代,數(shù)據(jù)應(yīng)用不再是簡單的分析和挖掘,而是更加智能化。
典型企業(yè)分析場景主要分為實時分析處理,批量分析處理以及交互式查詢處理。當前常見的解決方案用不同技術(shù)解決不同問題:使用Hana,Oracle Exadata處理實時分析場景;使用Teradata,Greenplum處理批量分析場景;使用Oracle和SQL Server等處理交互式查詢場景。
從單一場景來看都是不錯的選擇,但是站在整體數(shù)據(jù)域視角去看,這種搭積木式的方案帶來諸多問題,例如組件多,開發(fā)方式不統(tǒng)一,數(shù)據(jù)格式不統(tǒng)一,反復轉(zhuǎn)換消耗算力和存儲空間;組件間的數(shù)據(jù)流轉(zhuǎn)開發(fā)復雜,流轉(zhuǎn)效率低;跨集群,跨組件數(shù)據(jù)一致性差等。
華為云GaussDB(DWS)從兩個維度構(gòu)筑能力,為企業(yè)用戶提供一站式分析能力:
在全并行分布式架構(gòu)上,無縫融合時序引擎、OLAP引擎、CEP引擎,同時支撐實時分析、批量分析和交互式查詢等不同業(yè)務(wù)負載,達到開發(fā)統(tǒng)一、部署統(tǒng)一、維護統(tǒng)一、數(shù)據(jù)格式統(tǒng)一,真正做到一個產(chǎn)品包辦的一站式分析;
異構(gòu)平臺數(shù)據(jù)融合、協(xié)同分析,構(gòu)筑全域數(shù)據(jù)一體化。當前企業(yè)IT系統(tǒng)不會是白紙一張,在不同階段曾經(jīng)采用不同技術(shù)建設(shè)的多套系統(tǒng)承載著不同的業(yè)務(wù),這些系統(tǒng)還未完成歷史使命,將延續(xù)使用相當長一段時間。華為云GaussDB(DWS)支持多樣性的數(shù)據(jù)融合分析能力,無縫融合并協(xié)同分析企業(yè)現(xiàn)有平臺數(shù)據(jù),讓老IT系統(tǒng)產(chǎn)生的數(shù)據(jù)煥發(fā)新價值。
一、T+0實時分析
業(yè)務(wù)場景中實時數(shù)據(jù)源種類繁多,針對不同數(shù)據(jù)源采用不同實時處理技術(shù)。時序引擎支持時序數(shù)據(jù)分析,內(nèi)置100多種時序分析算法,將時序數(shù)據(jù)接入后實時合并;流引擎接入基于Kafka/Flink等流組件產(chǎn)生的流式數(shù)據(jù),支持對流數(shù)據(jù)自定義持續(xù)計算。
二、全并行批量分析
基于Share-nothing分布式架構(gòu),華為云GaussDB(DWS)天然具備大規(guī)模的分布式并行處理能力。多層級并行技術(shù)將系統(tǒng)性能推至極致,包括節(jié)點間并行、節(jié)點內(nèi)SMP并行,CPU指令級并行以及動態(tài)編譯技術(shù)。同時,通過自研TCP多流、多線程包合并、通信代理等技術(shù),將scale-out能力推至極致,華為云GaussDB(DWS)也是目前唯一通過信通院2048節(jié)點大集群權(quán)威認證的分布式數(shù)據(jù)庫產(chǎn)品。
三、多場景交互式查詢
對短查詢做了全流程梳理,從接入、SQL解析、計劃發(fā)送、執(zhí)行和數(shù)據(jù)掃描進行了一系列優(yōu)化;由于Ad-hoc查詢的負載具有不可預(yù)見性,經(jīng)??赡軙霈F(xiàn)單一查詢拖慢甚至拖垮整個集群的情況,華為云GaussDB(DWS)內(nèi)置動態(tài)智能負載管理組件,實時監(jiān)控運行狀態(tài)和資源消耗,對異常作業(yè)自動預(yù)警并智能干預(yù),例如內(nèi)存占用過高,運行時間過長,大量數(shù)據(jù)廣播等異常情況,系統(tǒng)會自動查殺等。
以銀行業(yè)務(wù)為例,“手機銀行用戶實時數(shù)據(jù)查詢”與“網(wǎng)銀系統(tǒng)交易流水批量作業(yè)”是最常見的業(yè)務(wù)場景,采用2套技術(shù)方案或2個平臺分別處理,則會出現(xiàn)資源重復投入。
使用華為云GaussDB(DWS)實現(xiàn)2個業(yè)務(wù)場景需求,數(shù)據(jù)無需反復轉(zhuǎn)換和流轉(zhuǎn),提升了業(yè)務(wù)處理效率,節(jié)省運維成本。2小時可完成7萬個核心業(yè)務(wù)的銀行日增量數(shù)據(jù)歸檔和數(shù)據(jù)加工,同時支持手機銀行終端7x24小時實時查詢;當上千萬個人用戶與幾十萬企業(yè)用戶同時使用系統(tǒng),并發(fā)進行日間批量作業(yè)10萬個的批量高峰期,實時查詢可在3秒內(nèi)響應(yīng),真正做到跑批和實時作業(yè)互不影響。
華為云GaussDB(DWS) 面向未來,構(gòu)筑新一代、全場景、云數(shù)據(jù)倉庫,一站式數(shù)據(jù)分析,釋放非凡數(shù)據(jù)價值,做企業(yè)數(shù)字化轉(zhuǎn)型的最佳伙伴。
-END-