十多年來,組織一直在采用數據湖來克服數據倉庫的技術限制,并逐步向更以數據驅動的實體發(fā)展。雖然許多組織利用數據湖探索新的數據使用案例并改進了數據驅動方法,但其他組織發(fā)現很難獲得所承諾的收益。因此,許多數據湖計劃的效率和投資回報率受到了質疑。
規(guī)避陷阱:當數據湖變成“數據沼澤”
隨著一些組織在管理大量數據存儲和避免“數據沼澤”方面面臨挑戰(zhàn),科技界對數據湖的看法已經發(fā)生了變化。在“數據沼澤”中,數據雖然被存儲但未被使用。這些“數據沼澤”是大型存儲庫,數據被無差別地傾倒其中,導致可發(fā)現性和可用性問題。集中化管理可能會造成瓶頸,從而減慢訪問和分析速度,但如果缺乏嚴格的治理,數據質量會迅速惡化。此外,對于數據湖實行一刀切辦法,實際無法滿足不同業(yè)務領域的具體需求。由于缺乏適當的工具或數據本身的復雜性,用戶難以從數據湖中提取價值,使得數據湖的潛力往往無法充分發(fā)揮。
數據生產者與消費者:組織鴻溝
這些問題的根源在于數據生產者和消費者與中央數據湖團隊之間的組織互動。數據生產者往往更傾向于開發(fā)新的應用程序功能,而不是提供可用于分析用例的數據。他們專注于事務性而非分析性工作負載,這意味著他們共享的數據質量無法保證。有時,甚至會與數據消費者脫節(jié),導致生產內容與需求不匹配。
對于數據湖團隊,需要應對大量數據源,必須執(zhí)行復雜的技術維護,并不斷衡量決策優(yōu)先級的變化。由于分析能力有限且與數據生產者脫節(jié),消費者對缺乏透明度、不清晰的價值以及需求優(yōu)先級被低估而感到沮喪。數據消費者和生產者通常不會直接互動,這種溝通被數據湖的代理組織所分隔,因為所有數據都集中存儲在那里。
通過數據網格賦能團隊:
通往分布式數據生態(tài)系統(tǒng)
科技界的討論已轉向一種更細致入微且可適應的數據策略,即數據網格,它旨在通過推廣分布式、以人為本和特定于上下文的數據管理方式,來克服集中式數據湖的一些局限性。
數據網格是解決集中化問題的另一種方法。它將分析數據的責任分配給構建和運行應用程序并產生事務數據的特定領域團隊,例如電子商務團隊,以及那些消費數據并用于獲取洞見的團隊。例如,擁有網店結賬頁面將銷售數據存儲在事務數據庫中的團隊,比如營銷或財務團隊,負責為分析、報告生成式AI與機器學習用例提供銷售數據。數據網格使消費者更容易、更簡單地使用這些分析數據。
這不僅僅是實現另一個接口——數據被作為獨立的數據產品提供,為實際消費者帶來特定利益。這種數據產品由特定數據及其元數據、準備和交付數據所需的源代碼、必要的測試和生產基礎設施(IaC)及其配置組成。
培養(yǎng)數據素養(yǎng):
在數據網格團隊中引入新角色
創(chuàng)建和使用數據的團隊,有可能會缺乏開發(fā)和管理分析數據的專業(yè)知識。然而,他們對數據的業(yè)務背景有深入的了解,這是非常寶貴的。在數據網格框架中,通過培養(yǎng)這些團隊實施分析用例至關重要。這包括為現有成員提供大量培訓,并創(chuàng)建額外的專門角色。其中,兩個關鍵角色至關重要:數據產品負責人負責指導數據的戰(zhàn)略方向;數據工程師則負責構建和管理這些數據產品的技術方面。
數據產品負責人是以業(yè)務為導向的數據人員,他們從事務和分析的角度了解業(yè)務領域,直接與數據產品的消費者溝通,并定義產品及其戰(zhàn)略和路線圖。
數據工程師在數據工程和數據科學方面是全面的通才,在業(yè)務所需的某個數據相關領域擁有更深的專業(yè)知識。該角色構建實際的數據產品,也是其他團隊提出技術問題的對接人。
為成功奠定基礎:
數據網格平臺
為充分發(fā)揮數據網格的潛力,我建議將這兩個角色直接嵌入到生產和消費團隊中。一種有效但次優(yōu)的變體(因為它重新引入了代理團隊)是為每個業(yè)務領域(如電子商務)建立一個獨立的數據網格團隊。數據網格平臺為生產者和消費者提供支持,使他們的工作更加高效。數據網格平臺團隊不創(chuàng)建數據產品,也不存儲或處理數據。
數據網格平臺有三個角色:
1.提供數據目錄、訪問控制、CI/CD管道、監(jiān)控以及預備開發(fā)和測試環(huán)境等工具和基礎設施;
2.培訓和指導生產者和消費者,必要時通過額外的開發(fā)能力為他們提供支持;
3.以聯邦方式制定必須在整個組織內遵守的通用標準和程序。
數據網格平臺的使命是為生產者和消費者提供簡單、高效、無壓力的環(huán)境。
但是,成功且可持續(xù)地運行平臺并不容易。我在博客文章中總結了我的經驗,內容是如何建立有效支持開發(fā)團隊的平臺。