隨著數(shù)字經(jīng)濟加速推動了各個行業(yè)的數(shù)字化進(jìn)程,以及5G商用所帶來云計算、通信、大數(shù)據(jù)、人工智能等多項技術(shù)融合催生出更多的數(shù)據(jù)湖應(yīng)用場景。IDC預(yù)測,到2025年,中國大數(shù)據(jù)市場規(guī)模將達(dá)到250億美金。作為重要的大數(shù)據(jù)技術(shù),數(shù)據(jù)湖可以充分利用其保真、靈活、可拓展等特點,安全、高效、低成本地對數(shù)據(jù)進(jìn)行存儲、分析、應(yīng)用,或?qū)⒊蔀橥七M(jìn)數(shù)字經(jīng)濟與實體經(jīng)濟融合的重要一環(huán)。
自2020年以來,數(shù)據(jù)湖技術(shù)成為了數(shù)據(jù)技術(shù)市場的一大熱點。特別是2020全球疫情,把全世界深入推進(jìn)到了數(shù)字經(jīng)濟時代,各類遠(yuǎn)程商業(yè)模式如雨后春筍般建立起來,企業(yè)急需將原有以數(shù)據(jù)庫和數(shù)據(jù)倉庫為主的結(jié)構(gòu)化數(shù)據(jù),與以移動互聯(lián)網(wǎng)大數(shù)據(jù)為代表的非結(jié)構(gòu)化數(shù)據(jù),結(jié)合起來形成數(shù)據(jù)一盤棋,在統(tǒng)一存儲、管理和分析的基礎(chǔ)上實現(xiàn)靈活調(diào)用以及快速支撐業(yè)務(wù)創(chuàng)新,這帶動了對數(shù)據(jù)湖產(chǎn)品需求的大幅提升以及要求下一代數(shù)據(jù)湖技術(shù)的支撐。
在計世資訊發(fā)布的《2020~2021中國數(shù)據(jù)湖市場現(xiàn)狀與發(fā)展趨勢研究報告》中,阿里云憑借出色的產(chǎn)品服務(wù)能力和市場以及戰(zhàn)略能力而位居領(lǐng)導(dǎo)者象限。2020年10月,阿里云推出了業(yè)界首個云原生企業(yè)級數(shù)據(jù)湖方案;2021年9月,阿里云云原生企業(yè)級數(shù)據(jù)湖再次升級到3.0階段,強調(diào)高效的數(shù)據(jù)流動和流通,將高性能AI計算與大數(shù)據(jù)分析相融合,幫助企業(yè)把數(shù)據(jù)用活,有效利用不同來源、規(guī)模巨大的數(shù)據(jù),從中挖掘更多數(shù)據(jù)洞察和創(chuàng)造商業(yè)價值。
數(shù)據(jù)湖起源于大數(shù)據(jù)技術(shù),是大數(shù)據(jù)技術(shù)近20年發(fā)展的成果。2001年Gartner提出大數(shù)據(jù)的3V屬性,標(biāo)志著大數(shù)據(jù)時代的開始;2006年Apache Hadoop發(fā)布第一個版本,大數(shù)據(jù)技術(shù)時代拉開序幕,隨后從2010年到2018年Hive、Flink、Presto、Spark、Atlas、Ranger等標(biāo)志性大數(shù)據(jù)技術(shù)相繼問世;而到了2020年,Hudi、Delta、Iceberg三大開源數(shù)據(jù)湖引擎技術(shù)相繼成熟,標(biāo)志著大數(shù)據(jù)技術(shù)進(jìn)入到了普惠期,數(shù)據(jù)湖從概念進(jìn)入到了產(chǎn)品化階段。
(大數(shù)據(jù)技術(shù)20年,來源:阿里云數(shù)據(jù)湖應(yīng)用實踐白皮書)
數(shù)據(jù)湖概念最早由開源智能商務(wù)軟件Pentaho公司創(chuàng)始人James Dixon在2010年的一篇博客中提及,當(dāng)時提到的概念是在一個大的數(shù)據(jù)湖中,數(shù)據(jù)以其自然的狀態(tài)存儲而不經(jīng)任何處理,任何用戶都可以到數(shù)據(jù)湖中根據(jù)自己的需要提取或使用數(shù)據(jù)。簡單理解,數(shù)據(jù)湖對存取的數(shù)據(jù)沒有格式類型的限制,數(shù)據(jù)產(chǎn)生后可按照數(shù)據(jù)的原始內(nèi)容和屬性,直接存儲到數(shù)據(jù)湖,無需在數(shù)據(jù)上傳之前對數(shù)據(jù)進(jìn)行任何的結(jié)構(gòu)化處理。
與數(shù)據(jù)倉庫相比,數(shù)據(jù)湖以多種格式(結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化)存儲海量數(shù)據(jù),數(shù)據(jù)入湖簡單、建設(shè)成本低,但數(shù)據(jù)體系松散、靈活度高,數(shù)據(jù)治理較為困難,數(shù)據(jù)在確定需要使用時才會被轉(zhuǎn)換格式和進(jìn)行處理。而作為企業(yè)級數(shù)據(jù)湖,既需要數(shù)據(jù)湖的靈活存儲和低成本建設(shè),又需要數(shù)據(jù)倉庫那樣面向企業(yè)級業(yè)務(wù)的嚴(yán)格數(shù)據(jù)處理和治理,還需要面向AI與大數(shù)據(jù)分析等新興場景提供數(shù)據(jù)服務(wù)。
作為大數(shù)據(jù)技術(shù)近20年發(fā)展的成果,在2020全球數(shù)字化轉(zhuǎn)型全面提速的前提下,云原生企業(yè)級數(shù)據(jù)湖已經(jīng)呼之欲出。
去年10月阿里云宣布推出業(yè)內(nèi)首個云原生企業(yè)級數(shù)據(jù)湖解決方案,該方案采用了存儲計算分離架構(gòu),存儲層基于阿里云對象存儲OSS構(gòu)建,并與阿里云數(shù)據(jù)湖構(gòu)建(Data Lake Formation,簡稱DLF)、E-MapReduce(簡稱EMR)、數(shù)據(jù)湖分析(Data Lake Analytics 簡稱DLA)、DataWorks(簡稱DW)等計算引擎無縫對接,且兼容豐富的開源計算引擎生態(tài),可滿足大數(shù)據(jù)系統(tǒng)統(tǒng)一存儲、海量規(guī)模的需求。
之所以稱為企業(yè)級數(shù)據(jù)湖,最重要的是阿里云以對象存儲 OSS 為中心,面向企業(yè)生產(chǎn)業(yè)務(wù),提供大規(guī)模、高可靠、高性能、高安全的統(tǒng)一存儲架構(gòu)。阿里云、AWS等國內(nèi)外云服務(wù)大廠,都提供了高度成熟的商用企業(yè)級云對象存儲服務(wù)。以對象存儲為基石,就能夠?qū)崿F(xiàn)融合并滿足大數(shù)據(jù)與數(shù)據(jù)倉庫需求的數(shù)據(jù)湖。
在阿里云對象存儲OSS的支持下,阿里云的數(shù)據(jù)湖產(chǎn)品經(jīng)歷了三代發(fā)展。在數(shù)據(jù)湖1.0時代,當(dāng)時主流是早期的傳統(tǒng)架構(gòu)中,原始數(shù)據(jù)統(tǒng)一存放在HDFS系統(tǒng)上,引擎以Hadoop和Spark為主,受到開源軟件本身能力的限制,無法滿足企業(yè)用戶在數(shù)據(jù)規(guī)模、存儲成本、查詢性能以及彈性計算架構(gòu)升級等方面的需求,同時計算和存儲耦合架構(gòu)導(dǎo)致資源利用率低,必須計算存儲一起擴容。而阿里云通過冷熱分層的方式初步實現(xiàn)存算分離,對象存儲對于文件數(shù)量、存儲容量沒有限制,極大突破了HDFS無法支撐大量小文件的困境。這一階段,阿里云主要面向Hadoop生態(tài),利用對象存儲的成本優(yōu)化、可擴展性等能力解決問題。
數(shù)據(jù)湖1.0架構(gòu)雖然一定程度上解決了成本優(yōu)化和可擴展性的問題,但是用戶仍然需要搭建和維護HDFS集群,同時用戶業(yè)務(wù)和使用場景需要使用不同的計算引擎對已存儲的數(shù)據(jù)進(jìn)行分析與處理,從而滿足多個不同應(yīng)用、系統(tǒng)和部門使用和分析。數(shù)據(jù)湖2.0架構(gòu)讓用戶不再需要搭建HDFS數(shù)據(jù)集群,同時數(shù)據(jù)湖可以直接接入業(yè)務(wù)生產(chǎn)中心,如業(yè)務(wù)系統(tǒng)中的原始數(shù)據(jù)、日志數(shù)據(jù)等,數(shù)據(jù)可通過互聯(lián)網(wǎng)直接入湖,無需經(jīng)過中間處理,提升業(yè)務(wù)效率。數(shù)據(jù)湖2.0架構(gòu)進(jìn)一步受益于阿里云對象存儲自身的性能、可擴展性、成本優(yōu)化、安全等能力的進(jìn)一步增強,實現(xiàn)以對象存儲為中心的數(shù)據(jù)的統(tǒng)一存儲,同時滿足生產(chǎn)業(yè)務(wù)的承載要求。
在數(shù)據(jù)湖2.0架構(gòu)下雖然實現(xiàn)了數(shù)據(jù)的統(tǒng)一存儲,但是用戶仍然需要在計算側(cè)進(jìn)行自行搭建以實現(xiàn)元數(shù)據(jù)管理和協(xié)議轉(zhuǎn)換,這給用戶帶來了運維復(fù)雜性,同時這部分的數(shù)據(jù)管理無法和對象存儲在底層實現(xiàn)無縫融合,實現(xiàn)數(shù)據(jù)的統(tǒng)一管理。數(shù)據(jù)湖3.0架構(gòu)下,提供了全兼容的HDFS服務(wù)化能力,用戶不再需要搭建元數(shù)據(jù)管理集群,輕松實現(xiàn)自建HDFS向數(shù)據(jù)湖架構(gòu)遷移;同時,原生具備多協(xié)議的接入能力及多種元數(shù)據(jù)的統(tǒng)一管理,實現(xiàn)HDFS與對象存儲底層的無縫融合,讓數(shù)據(jù)在多種生態(tài)間高效統(tǒng)一流入、管理、使用,幫助用戶加速業(yè)務(wù)創(chuàng)新。
我國高度重視數(shù)字經(jīng)濟發(fā)展,企業(yè)數(shù)字化轉(zhuǎn)型進(jìn)程不斷加快,數(shù)據(jù)已成為企業(yè)的核心資產(chǎn),根據(jù)計世資訊統(tǒng)計數(shù)據(jù)顯示,2020年我國數(shù)據(jù)總量將超過5ZB,如何有效管理和使用指數(shù)級增長的數(shù)據(jù)是目前企業(yè)數(shù)字化轉(zhuǎn)型過程中的重要工作之一。數(shù)據(jù)湖在處理企業(yè)的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)工作方面展現(xiàn)出較強的競爭力,同時具有低成本、可拓展性強、靈活高效等特性,越來越多的企業(yè)選擇數(shù)據(jù)湖作為企業(yè)數(shù)據(jù)存儲與管理的解決方案。
(阿里云數(shù)據(jù)湖整體方案)
經(jīng)過二十年的發(fā)展,阿里巴巴集團已經(jīng)成為一個數(shù)字經(jīng)濟體,阿里巴巴集團首先是阿里云數(shù)據(jù)湖產(chǎn)品的最佳實踐者,讓阿里云的數(shù)據(jù)湖產(chǎn)品和方案得到有效的驗證,阿里云的數(shù)據(jù)湖方案還支撐了在線教育、互聯(lián)網(wǎng)廣告、新媒體、網(wǎng)絡(luò)游戲等行業(yè)用戶在快速發(fā)展過程中的實際業(yè)務(wù)需求。目前,阿里云的數(shù)據(jù)湖方案可支持EB級別的數(shù)據(jù)存儲與分析,存儲超過十萬Database、一億Table以及十億級別的Partition,每天完成超過三十億次的元數(shù)據(jù)服務(wù)請求,支持多個開源計算引擎以及多種云原生數(shù)倉引擎。阿里云原生數(shù)據(jù)湖可一站式實現(xiàn)湖存儲、湖加速、湖管理、湖計算,幫助企業(yè)對數(shù)據(jù)進(jìn)行深入挖掘與分析。
阿里云為流利說量身打造了數(shù)據(jù)湖解決方案,解決了流利說多種應(yīng)用的各類數(shù)據(jù)的統(tǒng)一存儲,幫助流利說構(gòu)建數(shù)據(jù)規(guī)模高達(dá)上千億的“中國人英語語音數(shù)據(jù)庫”。使用阿里云構(gòu)建的數(shù)據(jù)湖,可以充分發(fā)揮計算與解耦合架構(gòu)的優(yōu)點,結(jié)合阿里云ECS彈性實例和K8S,根據(jù)實際業(yè)務(wù)需求,動態(tài)擴展、縮減對應(yīng)計算資源,無須按照業(yè)務(wù)峰值常駐計算資源,幫助流利說最大程度地優(yōu)化成本。英語流利說CTO胡哲人表示,英語流利說使用了阿里云OSS對象存儲構(gòu)建數(shù)據(jù)湖,支撐千萬級規(guī)模用戶的使用,借助云計算與存儲的彈性伸縮能力,讓運維管理難度大幅度下降的同時,也給整體成本帶來了有效的優(yōu)化。
易點天下是一家以大數(shù)據(jù)、AI技術(shù)為驅(qū)動,為企業(yè)國際化提供智能營銷服務(wù)的技術(shù)型公司。阿里云數(shù)據(jù)湖存儲與計算解耦合的架構(gòu)特點為易點天下提供了豐富靈活且高性價比的靈活處理模式,OSS可支持豐富的計算引擎,通過結(jié)合使用EMR和DLA等,輕松支持易點天下每天20TB新增日志量、每天超100億次的請求以及每小時3000萬數(shù)據(jù)的清洗。易點天下CTO王一舟表示,易點天下在選擇阿里云之前曾經(jīng)使用自建的數(shù)據(jù)集群解決方案,但卻面臨著自建數(shù)據(jù)集群運維成本高,彈性伸縮難的問題,同時由于數(shù)據(jù)類型復(fù)雜以及分布地區(qū)眾多,數(shù)據(jù)的綜合治理成本很高,阿里云的服務(wù)幫助易點天下很好地解決了以上的問題。
經(jīng)過二十年的技術(shù)演進(jìn),阿里巴巴實現(xiàn)了統(tǒng)一存儲的目標(biāo),以“盤古”系統(tǒng)為統(tǒng)一底座,通過標(biāo)準(zhǔn)化、服務(wù)化和開放化的方式建立了完整的存儲產(chǎn)品和服務(wù)體系,統(tǒng)一服務(wù)內(nèi)部和外部的客戶。一方面,阿里云存儲經(jīng)過歷年的阿里巴巴“雙11”的錘煉,打造了滿足大規(guī)模業(yè)務(wù)場景超高要求的技術(shù)競爭力和產(chǎn)品差異化能力;另一方面,阿里云存儲不斷向阿里云上的數(shù)百萬客戶學(xué)習(xí)業(yè)務(wù)架構(gòu)和了解客戶需求,不斷精進(jìn)存儲技術(shù)和產(chǎn)品打磨。9月22日,阿里云宣布云存儲服務(wù)全面升級,包括性能大幅提升300%、時延降低70%的ESSD企業(yè)級云盤,可兼容HDFS的數(shù)據(jù)湖存儲OSS,同時推出全新產(chǎn)品“云定義存儲”(Cloud Defined Storage,CDS)。
總結(jié)而言:阿里云的數(shù)據(jù)湖技術(shù)經(jīng)過了多年的發(fā)展和打磨,形成了基于對象存儲OSS的統(tǒng)一存儲,通過云原生技術(shù)無縫對接阿里云生態(tài)多種計算、分析、處理等平臺與工具,可以快速幫助企業(yè)搭建面向分析和大數(shù)據(jù)技術(shù)生態(tài)的數(shù)據(jù)湖,特別是滿足企業(yè)基于數(shù)據(jù)湖打造機器學(xué)習(xí)能力,快速滿足各類業(yè)務(wù)需求,幫助企業(yè)把數(shù)據(jù)用活,從數(shù)字化轉(zhuǎn)型走向數(shù)智化大未來。