什么是數(shù)據(jù)治理?
通俗的講,傳統(tǒng)數(shù)據(jù)治理就是指在什么情況下、用什么方式、由誰、對哪些數(shù)據(jù)、采取哪些行動。傳統(tǒng)數(shù)據(jù)治理側(cè)重于“治”和“理”,弱化“價值創(chuàng)造”。
傳統(tǒng)數(shù)據(jù)治理流程
咨詢設(shè)計和治理實施占人力投入與項目收入的80%,在整個數(shù)據(jù)治理過程中,存在三大業(yè)務(wù)痛點:
人力投入大、能力門檻高
前期依賴治理專家做咨詢設(shè)計,后期依賴開發(fā)專家做治理實施。治理專家要懂方法論、行業(yè)經(jīng)驗、數(shù)倉設(shè)計;開發(fā)專家要精通SQLMRSpark開發(fā);
工作模式周期長、流程重
傳統(tǒng)數(shù)據(jù)治理工作都是瀑布型工作流程,先要進行詳細(xì)的設(shè)計,然后按照設(shè)計進行實施,前后強依賴,用戶有新需求就需要重新設(shè)計,不敏捷、效率低;
數(shù)據(jù)分析程度淺
開發(fā)出來的數(shù)據(jù)90%以上還是BI分析為主,缺少深層次數(shù)據(jù)挖掘。
因此,企業(yè)進行數(shù)據(jù)治理時的核心訴求有三方面:
降低人力投入
日趨復(fù)雜、規(guī)模龐大的數(shù)據(jù)自動化&可信度數(shù)字化轉(zhuǎn)型要求必須基于AI能力來實現(xiàn);
降低能力門檻
數(shù)據(jù)治理需要變成人人可參與的工作,面向數(shù)據(jù)使用者提供技術(shù)工具;
改進工作模式
直接面向業(yè)務(wù)人員的交互式推薦式的數(shù)據(jù)探索模式,瀑布式的流水線開發(fā)模式已不適應(yīng)敏捷化需求。
為什么企業(yè)需要做數(shù)據(jù)治理?
隨著數(shù)字化轉(zhuǎn)型的深入,數(shù)據(jù)作為核心資產(chǎn)要驅(qū)動業(yè)務(wù)和釋放價值,需要:
能進得來,各種大量、多樣性、實時的數(shù)據(jù)源能被高效集成;
能放得下,海量數(shù)據(jù)長期存儲的性價比高,不用做各種模式轉(zhuǎn)換,易于分析計算;
能理得清,基于業(yè)界最佳實踐建模,數(shù)據(jù)之間的關(guān)系清晰可見,含義簡單易懂,質(zhì)量問題及時發(fā)現(xiàn);
能找得快,迅速找到需要的是數(shù)據(jù)資產(chǎn),能快速分析出價值;
能用得好,數(shù)據(jù)價值顯性化,快速響應(yīng)業(yè)務(wù)需求,驅(qū)動經(jīng)營完善。
然而要實現(xiàn)上述目標(biāo),還面臨三大挑戰(zhàn):
數(shù)據(jù)治理難
從數(shù)據(jù)到支撐業(yè)務(wù)的資產(chǎn),傳統(tǒng)數(shù)據(jù)庫、數(shù)倉建模和知識圖譜等技術(shù)無法滿足企業(yè)全業(yè)務(wù)流程分析和決策需求,導(dǎo)致難以管理和分析海量異構(gòu)數(shù)據(jù),治理好的數(shù)據(jù)也難以和應(yīng)用有效融合;
眾多的系統(tǒng)和復(fù)雜的架構(gòu)
隨著業(yè)務(wù)成長,需要管理眾多系統(tǒng)如湖、倉、AI等;
技術(shù)門檻高
大多數(shù)企業(yè)缺乏大數(shù)據(jù)相關(guān)人員,研發(fā)效率低,維護成本高。
DataArts讓數(shù)據(jù)治理
走向自動化、智能化
目前,數(shù)據(jù)治理生產(chǎn)線DataArts在華為內(nèi)外部有豐富的實踐。在內(nèi)部,基于數(shù)據(jù)治理生產(chǎn)線DataArts,華為生產(chǎn)出10多萬個高質(zhì)量的數(shù)據(jù)資產(chǎn);在外部,DataArts服務(wù)了1000家以上的政企客戶,每天有千萬級數(shù)據(jù)任務(wù)在云上運行。
華為云數(shù)據(jù)治理生產(chǎn)線DataArts可以幫助企業(yè)解決數(shù)據(jù)智能化面臨的挑戰(zhàn),讓數(shù)據(jù)發(fā)揮價值,并能契合企業(yè)數(shù)據(jù)治理的核心訴求。
所謂數(shù)據(jù)生產(chǎn)線,顧名思義,就像生產(chǎn)線一樣,把海量的復(fù)雜的無序的數(shù)據(jù),生產(chǎn)成為清潔透明高質(zhì)量的數(shù)據(jù)能源,輸送給業(yè)務(wù)。
華為云數(shù)據(jù)治理生產(chǎn)線DataArts可以幫助企業(yè)數(shù)據(jù)實時的入湖、分析、處理;具備AI能力實現(xiàn)智能化的數(shù)據(jù)準(zhǔn)備與治理;擁有全鏈路數(shù)據(jù)安全管理,保護好隱私數(shù)據(jù),對數(shù)據(jù)使用進行合規(guī)性審計;幫助企業(yè)沉淀數(shù)據(jù)資產(chǎn),發(fā)揮數(shù)據(jù)價值,實現(xiàn)業(yè)務(wù)創(chuàng)新與發(fā)展。
簡單來說,數(shù)據(jù)治理生產(chǎn)線DataArts改變了傳統(tǒng)“人拉肩抗”的數(shù)據(jù)處理方式,幫助提升效率;降低技術(shù)門檻,讓“人人都是分析師”;讓“數(shù)據(jù)‘慧’說話”,驅(qū)動高效決策。
華為數(shù)據(jù)治理生產(chǎn)線DataArts
新特性起底
數(shù)據(jù)入湖過程中,自動元數(shù)據(jù)發(fā)現(xiàn)和表格化存儲
·支持OBS、HDFS/SFTP、Kafka、REST等數(shù)據(jù)存儲上的文件、消息元數(shù)據(jù)自動發(fā)現(xiàn);
·自定義分類器,支持CSV、JSON、文本、Parquet、ORC、Hudi等半結(jié)構(gòu)化數(shù)據(jù)進行Schema自動模式推斷和提?。?/p>
·構(gòu)建表、字段、分區(qū),并感知其變化等元數(shù)據(jù)信息,便于數(shù)據(jù)的搜索、計算和分析。
智能增強的AutoETL能力,數(shù)據(jù)準(zhǔn)備效率提升20%
·融合code模式與no-code模式:支持no-code模式開發(fā)流/批數(shù)據(jù)處理作業(yè),作業(yè)節(jié)點數(shù)量降低20%,數(shù)據(jù)作業(yè)開發(fā)效率由天級別降到小時/分鐘級別;
·豐富的數(shù)據(jù)處理算子庫:支持清洗、過濾、合并、Join等數(shù)據(jù)處理類別10+,算子數(shù)量200+。
智能增強的數(shù)據(jù)異常檢測,提升數(shù)據(jù)質(zhì)量稽核效率
·通過模糊索引、模式挖掘等方法發(fā)現(xiàn)潛在重復(fù)數(shù)據(jù)區(qū)塊;
·通過相似性對比檢查數(shù)據(jù)的語法差異,以及領(lǐng)域知識庫的實體解析檢查數(shù)據(jù)的語義差異;
·支持實時采樣計算數(shù)據(jù)質(zhì)量預(yù)覽,支持高性能掃描計算數(shù)據(jù)質(zhì)量,萬張表掃描速度提升5倍。
企業(yè)級數(shù)據(jù)目錄,像搜索引擎一樣搜索和管理數(shù)據(jù)資產(chǎn)
·企業(yè)級數(shù)據(jù)目錄,面向多云多Region邏輯數(shù)據(jù)湖的統(tǒng)一數(shù)據(jù)目錄,技術(shù)元數(shù)據(jù)自動同步更新,并與業(yè)務(wù)元數(shù)據(jù)和管理元數(shù)據(jù)信息關(guān)聯(lián);
·智能推薦:支持以自然語義搜索,并智能給出搜索建議、資產(chǎn)推薦和排序;
·360全景“實體-關(guān)系”知識圖譜,自動發(fā)現(xiàn)數(shù)據(jù)聯(lián)系。智能導(dǎo)航,路徑分析、社群分析等高級圖分析,1W+點圖分析響應(yīng)時間200ms以內(nèi)。
全鏈路數(shù)據(jù)安全保護,中心化安全策略治理,智能識別隱私數(shù)據(jù)
·中心化數(shù)據(jù)安全治理,支持企業(yè)實現(xiàn)企業(yè)數(shù)據(jù)安全策略統(tǒng)一管控;
·智能數(shù)據(jù)安全,內(nèi)置GDPR安全規(guī)則庫、支持?jǐn)?shù)據(jù)訪問權(quán)限控制、敏感數(shù)據(jù)自動識別,智能數(shù)據(jù)保護(加密、脫敏、水?。?/p>
·全鏈路數(shù)據(jù)安全保障,數(shù)據(jù)集成、傳輸、存儲、數(shù)據(jù)架構(gòu)設(shè)計、開發(fā)準(zhǔn)備、資產(chǎn)搜索、服務(wù)開放等全鏈路都集成了數(shù)據(jù)安全能力。