在年會(huì)中,AWS展現(xiàn)出前所未有的資料治理產(chǎn)品布局,從一開(kāi)始只有少數(shù)資料產(chǎn)品具備治理功能,今年不只延伸到數(shù)據(jù)倉(cāng)庫(kù)Redshift也能支持這項(xiàng)能力,甚至從資料源頭進(jìn)一步涵蓋到機(jī)器學(xué)習(xí)服務(wù)SageMaker,就連新推出的資料管理服務(wù),都把治理作為必備功能,提供企業(yè)來(lái)運(yùn)用。AWS對(duì)于資料產(chǎn)品策略明顯轉(zhuǎn)變,更讓資料治理躍升為今年AWS資料產(chǎn)品最重要的發(fā)布之一,甚至不只資料產(chǎn)品,AWS更披露了要邁向一個(gè)全服務(wù)資料治理的大戰(zhàn)略。
資料是企業(yè)數(shù)字轉(zhuǎn)型的核心,隨著資料量越來(lái)越龐大,許多企業(yè)開(kāi)始發(fā)現(xiàn),光只是搜集資料、完善資料分析還不夠,要讓企業(yè)內(nèi)部資料容易使用,還要能容易做好法遵或合規(guī),就必須落實(shí)資料治理,也因此,許多企業(yè)開(kāi)始重視甚至強(qiáng)調(diào)資料治理,而開(kāi)始受到各界的關(guān)注。近年來(lái),各大公有云巨頭也都開(kāi)始搶進(jìn),布局企業(yè)資料治理這個(gè)新領(lǐng)域。
持續(xù)擴(kuò)大資料治理布局,更多云計(jì)算資料產(chǎn)品都支持
去年年會(huì),AWS推出Lake Formation服務(wù),先在云計(jì)算資料湖產(chǎn)品中,開(kāi)始提供資料治理的功能,到了今年,AWS持續(xù)布局資料治理的態(tài)勢(shì)更加明顯。
AWS數(shù)據(jù)和機(jī)器學(xué)習(xí)副總裁Swami Sivasubramanian在演講中不只重提AWS端到端資料策略,今年更進(jìn)一步披露未來(lái)端到端的資料治理策略。他表示,要串起組織中所有數(shù)據(jù),需要有從創(chuàng)建自動(dòng)化資料路徑到資料治理工具的一整套解決方案,不只是數(shù)據(jù)集成,還包含了組織部門、團(tuán)隊(duì)與個(gè)人的集成?!巴ㄟ^(guò)資料治理,可以為資料斷點(diǎn)、團(tuán)隊(duì)斷點(diǎn)提供一個(gè)安全信道,如此一來(lái),企業(yè)不同部門之間才能夠彼此協(xié)作,并根據(jù)獲取的數(shù)據(jù)來(lái)采取行動(dòng)。”
從今年云計(jì)算資料產(chǎn)品更新來(lái)看,更多資料產(chǎn)品都開(kāi)始提供資料治理能力。AWS數(shù)據(jù)倉(cāng)庫(kù)Redshift推出Centialized Access Controls for Redshift Data Sharing預(yù)覽版,就是集成治理功能來(lái)強(qiáng)化資料訪問(wèn)管控與安全。他們利用Lake Formation資料治理方式來(lái)管理Redshift集群的資料共享,因此可以使Redshift共享資料達(dá)到顆粒度更高的權(quán)限管控,可以針對(duì)單一欄或行,來(lái)設(shè)置不同角色的訪問(wèn)權(quán)限,進(jìn)而提高資料安全性,用戶既不需要撰寫腳本程序,也不用編寫復(fù)雜程序。這也是AWS端到端資料治理策略不可缺少的重要一環(huán)。
主打內(nèi)置治理的資料管理新服務(wù)
不光如此,AWS云計(jì)算資料管理服務(wù)也都開(kāi)始支持這項(xiàng)能力。AWS首席執(zhí)行官Adam Selipsky親自發(fā)布了新的資料管理服務(wù)DataZone,不只提供項(xiàng)目式的資料管理平臺(tái),更主打內(nèi)置資料治理的功能,可對(duì)存儲(chǔ)在AWS中的數(shù)據(jù)提供資料目錄編制、探索、共享和管理。
Swami Sivasubramanian就指出,DataZone最大價(jià)值,就是兼具有強(qiáng)大的資料治理控制與訪問(wèn)簡(jiǎn)化,使組織中所有人可以很容易查看、組織和協(xié)作,將資料價(jià)值發(fā)揮到最大,加速企業(yè)創(chuàng)新。
DataZone提供統(tǒng)一資料協(xié)作環(huán)境(Zone),讓資料項(xiàng)目團(tuán)隊(duì)可以在DataZone中發(fā)布所需資料,來(lái)提供團(tuán)隊(duì)成員查詢、訪問(wèn)或共享,并搭配治理與訪問(wèn)權(quán)限管控,來(lái)確保資料使用安全。這樣的好處是,可以大大簡(jiǎn)化跨部門或不同項(xiàng)目團(tuán)隊(duì)資料使用、分析流程以及治理策略集成,通過(guò)這項(xiàng)服務(wù),不論是數(shù)據(jù)科學(xué)家、資料工程師或營(yíng)銷人員的資料利用,都能套用一致治理標(biāo)準(zhǔn)來(lái)管理,來(lái)加快數(shù)據(jù)分析與應(yīng)用。
AWS對(duì)于治理布局不只如此,不只是從資料源頭做好治理,對(duì)于用這些資料訓(xùn)練創(chuàng)建的ML模型也有提供相對(duì)應(yīng)的治理方案。尤其,AI/ML應(yīng)用當(dāng)?shù)溃髽I(yè)以ML為基礎(chǔ)的應(yīng)用越來(lái)越多、越來(lái)越關(guān)鍵,如何通過(guò)ML治理打造負(fù)責(zé)任AI,成了企業(yè)IT新課題。
AWS發(fā)布了新的資料管理服務(wù)DataZone,不只提供項(xiàng)目式的資料管理平臺(tái),更主打內(nèi)置資料治理的功能,可對(duì)存儲(chǔ)在AWS中的數(shù)據(jù)提供資料目錄編制、探索、共享和管理。不論是數(shù)據(jù)科學(xué)家、資料工程師或營(yíng)銷人員的資料利用,都能套用一致治理標(biāo)準(zhǔn)來(lái)管理,來(lái)加快數(shù)據(jù)分析與應(yīng)用,包含哪些資料可以共享、誰(shuí)有權(quán)使用,以及使用期限等,確保只有授給該資料訪問(wèn)權(quán)限的團(tuán)隊(duì)成員才能使用。圖片來(lái)源/AWS
SageMaker機(jī)器學(xué)習(xí)服務(wù)也加入治理功能
但以往要做到端到端ML流程治理,對(duì)企業(yè)挑戰(zhàn)很大,因?yàn)橐粋€(gè)ML模型的創(chuàng)建,往往涉及到許多不同團(tuán)隊(duì)協(xié)作,彼此相互配合,包括數(shù)據(jù)科學(xué)家、資料工程師,甚至是資料用戶。但要擬定政策做好權(quán)限的管控,不僅很花時(shí)間,遇到不同使用單位,還得制定不同政策,甚至要與他人共享模型資訊也十分沒(méi)效率,常常拿到都已經(jīng)是舊的資訊。
為了解決這個(gè)問(wèn)題,AWS先從最常用的機(jī)器學(xué)習(xí)訓(xùn)練環(huán)境全托管服務(wù)SageMaker開(kāi)始,將ML治理功能帶來(lái)SageMaker服務(wù)中,來(lái)強(qiáng)化企業(yè)端到端ML開(kāi)發(fā)的治理和審計(jì)。
在SageMaker服務(wù)中推出3項(xiàng)ML治理新功能,AWS表示,通過(guò)這三個(gè)功能,就能涵蓋端到端機(jī)器學(xué)習(xí)流程的管理與治理,分別是角色管理器(Role Manager)、模型卡片(Model Cards),以及模型儀表板(Model Dashboard)。
一開(kāi)始決定不同角色使用權(quán)限,就是靠Role Manager來(lái)定義與擬定政策,因?yàn)榻Y(jié)合自動(dòng)化機(jī)制,讓原本繁瑣政策創(chuàng)建流程,縮短到幾分鐘內(nèi)完成。開(kāi)始創(chuàng)建ML模型時(shí),就會(huì)需要用Model Cards集中管理ML模型所有資訊和文件文件,并采單一數(shù)據(jù)源(single source of truth)來(lái)構(gòu)建ML文件狀態(tài)更新的機(jī)制,以保持ML資訊一致,來(lái)涵蓋完整ML模型生命周期。
最后,對(duì)于部署的ML模型性能表現(xiàn),也能使用Model Dashboard工具來(lái)對(duì)ML模型性能進(jìn)行統(tǒng)一監(jiān)控,不只提高模型的透明度,當(dāng)偵測(cè)到預(yù)測(cè)結(jié)果明顯偏離預(yù)期時(shí)就會(huì)自動(dòng)告警,通知相關(guān)人員加以處理。
“有了這些治理功能就可以幫助企業(yè)有責(zé)任構(gòu)建ML治理”Swami Sivasubramanian補(bǔ)充。
但資料治理只支持資料湖、數(shù)據(jù)倉(cāng)庫(kù)、機(jī)器學(xué)習(xí)服務(wù)還遠(yuǎn)遠(yuǎn)不夠。Swami Sivasubramanian直言,想要真正實(shí)現(xiàn)端到端治理,需要能夠管理企業(yè)所有服務(wù)資料訪問(wèn),“這是我們正在朝向發(fā)展的方向”他說(shuō)。這正是AWS未來(lái)邁向一個(gè)全服務(wù)資料治理的大戰(zhàn)略。