什么是數(shù)據(jù)治理?
通俗的講,傳統(tǒng)數(shù)據(jù)治理就是指在什么情況下、用什么方式、由誰(shuí)、對(duì)哪些數(shù)據(jù)、采取哪些行動(dòng)。傳統(tǒng)數(shù)據(jù)治理側(cè)重于“治”和“理”,弱化“價(jià)值創(chuàng)造”。
傳統(tǒng)數(shù)據(jù)治理流程
咨詢?cè)O(shè)計(jì)和治理實(shí)施占人力投入與項(xiàng)目收入的80%,在整個(gè)數(shù)據(jù)治理過程中,存在三大業(yè)務(wù)痛點(diǎn):
人力投入大、能力門檻高
前期依賴治理專家做咨詢?cè)O(shè)計(jì),后期依賴開發(fā)專家做治理實(shí)施。治理專家要懂方法論、行業(yè)經(jīng)驗(yàn)、數(shù)倉(cāng)設(shè)計(jì);開發(fā)專家要精通SQLMRSpark開發(fā);
工作模式周期長(zhǎng)、流程重
傳統(tǒng)數(shù)據(jù)治理工作都是瀑布型工作流程,先要進(jìn)行詳細(xì)的設(shè)計(jì),然后按照設(shè)計(jì)進(jìn)行實(shí)施,前后強(qiáng)依賴,用戶有新需求就需要重新設(shè)計(jì),不敏捷、效率低;
數(shù)據(jù)分析程度淺
開發(fā)出來(lái)的數(shù)據(jù)90%以上還是BI分析為主,缺少深層次數(shù)據(jù)挖掘。
因此,企業(yè)進(jìn)行數(shù)據(jù)治理時(shí)的核心訴求有三方面:
降低人力投入
日趨復(fù)雜、規(guī)模龐大的數(shù)據(jù)自動(dòng)化&可信度數(shù)字化轉(zhuǎn)型要求必須基于AI能力來(lái)實(shí)現(xiàn);
降低能力門檻
數(shù)據(jù)治理需要變成人人可參與的工作,面向數(shù)據(jù)使用者提供技術(shù)工具;
改進(jìn)工作模式
直接面向業(yè)務(wù)人員的交互式推薦式的數(shù)據(jù)探索模式,瀑布式的流水線開發(fā)模式已不適應(yīng)敏捷化需求。
為什么企業(yè)需要做數(shù)據(jù)治理?
隨著數(shù)字化轉(zhuǎn)型的深入,數(shù)據(jù)作為核心資產(chǎn)要驅(qū)動(dòng)業(yè)務(wù)和釋放價(jià)值,需要:
能進(jìn)得來(lái),各種大量、多樣性、實(shí)時(shí)的數(shù)據(jù)源能被高效集成;
能放得下,海量數(shù)據(jù)長(zhǎng)期存儲(chǔ)的性價(jià)比高,不用做各種模式轉(zhuǎn)換,易于分析計(jì)算;
能理得清,基于業(yè)界最佳實(shí)踐建模,數(shù)據(jù)之間的關(guān)系清晰可見,含義簡(jiǎn)單易懂,質(zhì)量問題及時(shí)發(fā)現(xiàn);
能找得快,迅速找到需要的是數(shù)據(jù)資產(chǎn),能快速分析出價(jià)值;
能用得好,數(shù)據(jù)價(jià)值顯性化,快速響應(yīng)業(yè)務(wù)需求,驅(qū)動(dòng)經(jīng)營(yíng)完善。
然而要實(shí)現(xiàn)上述目標(biāo),還面臨三大挑戰(zhàn):
數(shù)據(jù)治理難
從數(shù)據(jù)到支撐業(yè)務(wù)的資產(chǎn),傳統(tǒng)數(shù)據(jù)庫(kù)、數(shù)倉(cāng)建模和知識(shí)圖譜等技術(shù)無(wú)法滿足企業(yè)全業(yè)務(wù)流程分析和決策需求,導(dǎo)致難以管理和分析海量異構(gòu)數(shù)據(jù),治理好的數(shù)據(jù)也難以和應(yīng)用有效融合;
眾多的系統(tǒng)和復(fù)雜的架構(gòu)
隨著業(yè)務(wù)成長(zhǎng),需要管理眾多系統(tǒng)如湖、倉(cāng)、AI等;
技術(shù)門檻高
大多數(shù)企業(yè)缺乏大數(shù)據(jù)相關(guān)人員,研發(fā)效率低,維護(hù)成本高。
DataArts讓數(shù)據(jù)治理
走向自動(dòng)化、智能化
目前,數(shù)據(jù)治理生產(chǎn)線DataArts在華為內(nèi)外部有豐富的實(shí)踐。在內(nèi)部,基于數(shù)據(jù)治理生產(chǎn)線DataArts,華為生產(chǎn)出10多萬(wàn)個(gè)高質(zhì)量的數(shù)據(jù)資產(chǎn);在外部,DataArts服務(wù)了1000家以上的政企客戶,每天有千萬(wàn)級(jí)數(shù)據(jù)任務(wù)在云上運(yùn)行。
華為云數(shù)據(jù)治理生產(chǎn)線DataArts可以幫助企業(yè)解決數(shù)據(jù)智能化面臨的挑戰(zhàn),讓數(shù)據(jù)發(fā)揮價(jià)值,并能契合企業(yè)數(shù)據(jù)治理的核心訴求。
所謂數(shù)據(jù)生產(chǎn)線,顧名思義,就像生產(chǎn)線一樣,把海量的復(fù)雜的無(wú)序的數(shù)據(jù),生產(chǎn)成為清潔透明高質(zhì)量的數(shù)據(jù)能源,輸送給業(yè)務(wù)。
華為云數(shù)據(jù)治理生產(chǎn)線DataArts可以幫助企業(yè)數(shù)據(jù)實(shí)時(shí)的入湖、分析、處理;具備AI能力實(shí)現(xiàn)智能化的數(shù)據(jù)準(zhǔn)備與治理;擁有全鏈路數(shù)據(jù)安全管理,保護(hù)好隱私數(shù)據(jù),對(duì)數(shù)據(jù)使用進(jìn)行合規(guī)性審計(jì);幫助企業(yè)沉淀數(shù)據(jù)資產(chǎn),發(fā)揮數(shù)據(jù)價(jià)值,實(shí)現(xiàn)業(yè)務(wù)創(chuàng)新與發(fā)展。
簡(jiǎn)單來(lái)說,數(shù)據(jù)治理生產(chǎn)線DataArts改變了傳統(tǒng)“人拉肩抗”的數(shù)據(jù)處理方式,幫助提升效率;降低技術(shù)門檻,讓“人人都是分析師”;讓“數(shù)據(jù)‘慧’說話”,驅(qū)動(dòng)高效決策。
華為數(shù)據(jù)治理生產(chǎn)線DataArts
新特性起底
數(shù)據(jù)入湖過程中,自動(dòng)元數(shù)據(jù)發(fā)現(xiàn)和表格化存儲(chǔ)
·支持OBS、HDFS/SFTP、Kafka、REST等數(shù)據(jù)存儲(chǔ)上的文件、消息元數(shù)據(jù)自動(dòng)發(fā)現(xiàn);
·自定義分類器,支持CSV、JSON、文本、Parquet、ORC、Hudi等半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行Schema自動(dòng)模式推斷和提取;
·構(gòu)建表、字段、分區(qū),并感知其變化等元數(shù)據(jù)信息,便于數(shù)據(jù)的搜索、計(jì)算和分析。
智能增強(qiáng)的AutoETL能力,數(shù)據(jù)準(zhǔn)備效率提升20%
·融合code模式與no-code模式:支持no-code模式開發(fā)流/批數(shù)據(jù)處理作業(yè),作業(yè)節(jié)點(diǎn)數(shù)量降低20%,數(shù)據(jù)作業(yè)開發(fā)效率由天級(jí)別降到小時(shí)/分鐘級(jí)別;
·豐富的數(shù)據(jù)處理算子庫(kù):支持清洗、過濾、合并、Join等數(shù)據(jù)處理類別10+,算子數(shù)量200+。
智能增強(qiáng)的數(shù)據(jù)異常檢測(cè),提升數(shù)據(jù)質(zhì)量稽核效率
·通過模糊索引、模式挖掘等方法發(fā)現(xiàn)潛在重復(fù)數(shù)據(jù)區(qū)塊;
·通過相似性對(duì)比檢查數(shù)據(jù)的語(yǔ)法差異,以及領(lǐng)域知識(shí)庫(kù)的實(shí)體解析檢查數(shù)據(jù)的語(yǔ)義差異;
·支持實(shí)時(shí)采樣計(jì)算數(shù)據(jù)質(zhì)量預(yù)覽,支持高性能掃描計(jì)算數(shù)據(jù)質(zhì)量,萬(wàn)張表掃描速度提升5倍。
企業(yè)級(jí)數(shù)據(jù)目錄,像搜索引擎一樣搜索和管理數(shù)據(jù)資產(chǎn)
·企業(yè)級(jí)數(shù)據(jù)目錄,面向多云多Region邏輯數(shù)據(jù)湖的統(tǒng)一數(shù)據(jù)目錄,技術(shù)元數(shù)據(jù)自動(dòng)同步更新,并與業(yè)務(wù)元數(shù)據(jù)和管理元數(shù)據(jù)信息關(guān)聯(lián);
·智能推薦:支持以自然語(yǔ)義搜索,并智能給出搜索建議、資產(chǎn)推薦和排序;
·360全景“實(shí)體-關(guān)系”知識(shí)圖譜,自動(dòng)發(fā)現(xiàn)數(shù)據(jù)聯(lián)系。智能導(dǎo)航,路徑分析、社群分析等高級(jí)圖分析,1W+點(diǎn)圖分析響應(yīng)時(shí)間200ms以內(nèi)。
全鏈路數(shù)據(jù)安全保護(hù),中心化安全策略治理,智能識(shí)別隱私數(shù)據(jù)
·中心化數(shù)據(jù)安全治理,支持企業(yè)實(shí)現(xiàn)企業(yè)數(shù)據(jù)安全策略統(tǒng)一管控;
·智能數(shù)據(jù)安全,內(nèi)置GDPR安全規(guī)則庫(kù)、支持?jǐn)?shù)據(jù)訪問權(quán)限控制、敏感數(shù)據(jù)自動(dòng)識(shí)別,智能數(shù)據(jù)保護(hù)(加密、脫敏、水印);
·全鏈路數(shù)據(jù)安全保障,數(shù)據(jù)集成、傳輸、存儲(chǔ)、數(shù)據(jù)架構(gòu)設(shè)計(jì)、開發(fā)準(zhǔn)備、資產(chǎn)搜索、服務(wù)開放等全鏈路都集成了數(shù)據(jù)安全能力。