把數(shù)據(jù)用活,阿里云定義云原生企業(yè)級(jí)數(shù)據(jù)湖3.0

來(lái)源: 搜狐
作者:云科技時(shí)代
時(shí)間:2021-09-26
17214
隨著數(shù)字經(jīng)濟(jì)加速推動(dòng)了各個(gè)行業(yè)的數(shù)字化進(jìn)程,以及5G商用所帶來(lái)云計(jì)算、通信、大數(shù)據(jù)、人工智能等多項(xiàng)技術(shù)融合催生出更多的數(shù)據(jù)湖應(yīng)用場(chǎng)景。

隨著數(shù)字經(jīng)濟(jì)加速推動(dòng)了各個(gè)行業(yè)的數(shù)字化進(jìn)程,以及5G商用所帶來(lái)云計(jì)算、通信、大數(shù)據(jù)、人工智能等多項(xiàng)技術(shù)融合催生出更多的數(shù)據(jù)湖應(yīng)用場(chǎng)景。IDC預(yù)測(cè),到2025年,中國(guó)大數(shù)據(jù)市場(chǎng)規(guī)模將達(dá)到250億美金。作為重要的大數(shù)據(jù)技術(shù),數(shù)據(jù)湖可以充分利用其保真、靈活、可拓展等特點(diǎn),安全、高效、低成本地對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)、分析、應(yīng)用,或?qū)⒊蔀橥七M(jìn)數(shù)字經(jīng)濟(jì)與實(shí)體經(jīng)濟(jì)融合的重要一環(huán)。

自2020年以來(lái),數(shù)據(jù)湖技術(shù)成為了數(shù)據(jù)技術(shù)市場(chǎng)的一大熱點(diǎn)。特別是2020全球疫情,把全世界深入推進(jìn)到了數(shù)字經(jīng)濟(jì)時(shí)代,各類遠(yuǎn)程商業(yè)模式如雨后春筍般建立起來(lái),企業(yè)急需將原有以數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)為主的結(jié)構(gòu)化數(shù)據(jù),與以移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)為代表的非結(jié)構(gòu)化數(shù)據(jù),結(jié)合起來(lái)形成數(shù)據(jù)一盤棋,在統(tǒng)一存儲(chǔ)、管理和分析的基礎(chǔ)上實(shí)現(xiàn)靈活調(diào)用以及快速支撐業(yè)務(wù)創(chuàng)新,這帶動(dòng)了對(duì)數(shù)據(jù)湖產(chǎn)品需求的大幅提升以及要求下一代數(shù)據(jù)湖技術(shù)的支撐。

在計(jì)世資訊發(fā)布的《2020~2021中國(guó)數(shù)據(jù)湖市場(chǎng)現(xiàn)狀與發(fā)展趨勢(shì)研究報(bào)告》中,阿里云憑借出色的產(chǎn)品服務(wù)能力和市場(chǎng)以及戰(zhàn)略能力而位居領(lǐng)導(dǎo)者象限。2020年10月,阿里云推出了業(yè)界首個(gè)云原生企業(yè)級(jí)數(shù)據(jù)湖方案;2021年9月,阿里云云原生企業(yè)級(jí)數(shù)據(jù)湖再次升級(jí)到3.0階段,強(qiáng)調(diào)高效的數(shù)據(jù)流動(dòng)和流通,將高性能AI計(jì)算與大數(shù)據(jù)分析相融合,幫助企業(yè)把數(shù)據(jù)用活,有效利用不同來(lái)源、規(guī)模巨大的數(shù)據(jù),從中挖掘更多數(shù)據(jù)洞察和創(chuàng)造商業(yè)價(jià)值。

數(shù)據(jù)湖:大數(shù)據(jù)技術(shù)發(fā)展20年的成果

數(shù)據(jù)湖起源于大數(shù)據(jù)技術(shù),是大數(shù)據(jù)技術(shù)近20年發(fā)展的成果。2001年Gartner提出大數(shù)據(jù)的3V屬性,標(biāo)志著大數(shù)據(jù)時(shí)代的開始;2006年Apache Hadoop發(fā)布第一個(gè)版本,大數(shù)據(jù)技術(shù)時(shí)代拉開序幕,隨后從2010年到2018年Hive、Flink、Presto、Spark、Atlas、Ranger等標(biāo)志性大數(shù)據(jù)技術(shù)相繼問(wèn)世;而到了2020年,Hudi、Delta、Iceberg三大開源數(shù)據(jù)湖引擎技術(shù)相繼成熟,標(biāo)志著大數(shù)據(jù)技術(shù)進(jìn)入到了普惠期,數(shù)據(jù)湖從概念進(jìn)入到了產(chǎn)品化階段。

(大數(shù)據(jù)技術(shù)20年,來(lái)源:阿里云數(shù)據(jù)湖應(yīng)用實(shí)踐白皮書)

數(shù)據(jù)湖概念最早由開源智能商務(wù)軟件Pentaho公司創(chuàng)始人James Dixon在2010年的一篇博客中提及,當(dāng)時(shí)提到的概念是在一個(gè)大的數(shù)據(jù)湖中,數(shù)據(jù)以其自然的狀態(tài)存儲(chǔ)而不經(jīng)任何處理,任何用戶都可以到數(shù)據(jù)湖中根據(jù)自己的需要提取或使用數(shù)據(jù)。簡(jiǎn)單理解,數(shù)據(jù)湖對(duì)存取的數(shù)據(jù)沒(méi)有格式類型的限制,數(shù)據(jù)產(chǎn)生后可按照數(shù)據(jù)的原始內(nèi)容和屬性,直接存儲(chǔ)到數(shù)據(jù)湖,無(wú)需在數(shù)據(jù)上傳之前對(duì)數(shù)據(jù)進(jìn)行任何的結(jié)構(gòu)化處理。

與數(shù)據(jù)倉(cāng)庫(kù)相比,數(shù)據(jù)湖以多種格式(結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化)存儲(chǔ)海量數(shù)據(jù),數(shù)據(jù)入湖簡(jiǎn)單、建設(shè)成本低,但數(shù)據(jù)體系松散、靈活度高,數(shù)據(jù)治理較為困難,數(shù)據(jù)在確定需要使用時(shí)才會(huì)被轉(zhuǎn)換格式和進(jìn)行處理。而作為企業(yè)級(jí)數(shù)據(jù)湖,既需要數(shù)據(jù)湖的靈活存儲(chǔ)和低成本建設(shè),又需要數(shù)據(jù)倉(cāng)庫(kù)那樣面向企業(yè)級(jí)業(yè)務(wù)的嚴(yán)格數(shù)據(jù)處理和治理,還需要面向AI與大數(shù)據(jù)分析等新興場(chǎng)景提供數(shù)據(jù)服務(wù)。

作為大數(shù)據(jù)技術(shù)近20年發(fā)展的成果,在2020全球數(shù)字化轉(zhuǎn)型全面提速的前提下,云原生企業(yè)級(jí)數(shù)據(jù)湖已經(jīng)呼之欲出。

云原生企業(yè)級(jí)數(shù)據(jù)湖3.0

去年10月阿里云宣布推出業(yè)內(nèi)首個(gè)云原生企業(yè)級(jí)數(shù)據(jù)湖解決方案,該方案采用了存儲(chǔ)計(jì)算分離架構(gòu),存儲(chǔ)層基于阿里云對(duì)象存儲(chǔ)OSS構(gòu)建,并與阿里云數(shù)據(jù)湖構(gòu)建(Data Lake Formation,簡(jiǎn)稱DLF)、E-MapReduce(簡(jiǎn)稱EMR)、數(shù)據(jù)湖分析(Data Lake Analytics 簡(jiǎn)稱DLA)、DataWorks(簡(jiǎn)稱DW)等計(jì)算引擎無(wú)縫對(duì)接,且兼容豐富的開源計(jì)算引擎生態(tài),可滿足大數(shù)據(jù)系統(tǒng)統(tǒng)一存儲(chǔ)、海量規(guī)模的需求。

之所以稱為企業(yè)級(jí)數(shù)據(jù)湖,最重要的是阿里云以對(duì)象存儲(chǔ) OSS 為中心,面向企業(yè)生產(chǎn)業(yè)務(wù),提供大規(guī)模、高可靠、高性能、高安全的統(tǒng)一存儲(chǔ)架構(gòu)。阿里云、AWS等國(guó)內(nèi)外云服務(wù)大廠,都提供了高度成熟的商用企業(yè)級(jí)云對(duì)象存儲(chǔ)服務(wù)。以對(duì)象存儲(chǔ)為基石,就能夠?qū)崿F(xiàn)融合并滿足大數(shù)據(jù)與數(shù)據(jù)倉(cāng)庫(kù)需求的數(shù)據(jù)湖。

在阿里云對(duì)象存儲(chǔ)OSS的支持下,阿里云的數(shù)據(jù)湖產(chǎn)品經(jīng)歷了三代發(fā)展。在數(shù)據(jù)湖1.0時(shí)代,當(dāng)時(shí)主流是早期的傳統(tǒng)架構(gòu)中,原始數(shù)據(jù)統(tǒng)一存放在HDFS系統(tǒng)上,引擎以Hadoop和Spark為主,受到開源軟件本身能力的限制,無(wú)法滿足企業(yè)用戶在數(shù)據(jù)規(guī)模、存儲(chǔ)成本、查詢性能以及彈性計(jì)算架構(gòu)升級(jí)等方面的需求,同時(shí)計(jì)算和存儲(chǔ)耦合架構(gòu)導(dǎo)致資源利用率低,必須計(jì)算存儲(chǔ)一起擴(kuò)容。而阿里云通過(guò)冷熱分層的方式初步實(shí)現(xiàn)存算分離,對(duì)象存儲(chǔ)對(duì)于文件數(shù)量、存儲(chǔ)容量沒(méi)有限制,極大突破了HDFS無(wú)法支撐大量小文件的困境。這一階段,阿里云主要面向Hadoop生態(tài),利用對(duì)象存儲(chǔ)的成本優(yōu)化、可擴(kuò)展性等能力解決問(wèn)題。

數(shù)據(jù)湖1.0架構(gòu)雖然一定程度上解決了成本優(yōu)化和可擴(kuò)展性的問(wèn)題,但是用戶仍然需要搭建和維護(hù)HDFS集群,同時(shí)用戶業(yè)務(wù)和使用場(chǎng)景需要使用不同的計(jì)算引擎對(duì)已存儲(chǔ)的數(shù)據(jù)進(jìn)行分析與處理,從而滿足多個(gè)不同應(yīng)用、系統(tǒng)和部門使用和分析。數(shù)據(jù)湖2.0架構(gòu)讓用戶不再需要搭建HDFS數(shù)據(jù)集群,同時(shí)數(shù)據(jù)湖可以直接接入業(yè)務(wù)生產(chǎn)中心,如業(yè)務(wù)系統(tǒng)中的原始數(shù)據(jù)、日志數(shù)據(jù)等,數(shù)據(jù)可通過(guò)互聯(lián)網(wǎng)直接入湖,無(wú)需經(jīng)過(guò)中間處理,提升業(yè)務(wù)效率。數(shù)據(jù)湖2.0架構(gòu)進(jìn)一步受益于阿里云對(duì)象存儲(chǔ)自身的性能、可擴(kuò)展性、成本優(yōu)化、安全等能力的進(jìn)一步增強(qiáng),實(shí)現(xiàn)以對(duì)象存儲(chǔ)為中心的數(shù)據(jù)的統(tǒng)一存儲(chǔ),同時(shí)滿足生產(chǎn)業(yè)務(wù)的承載要求。

在數(shù)據(jù)湖2.0架構(gòu)下雖然實(shí)現(xiàn)了數(shù)據(jù)的統(tǒng)一存儲(chǔ),但是用戶仍然需要在計(jì)算側(cè)進(jìn)行自行搭建以實(shí)現(xiàn)元數(shù)據(jù)管理和協(xié)議轉(zhuǎn)換,這給用戶帶來(lái)了運(yùn)維復(fù)雜性,同時(shí)這部分的數(shù)據(jù)管理無(wú)法和對(duì)象存儲(chǔ)在底層實(shí)現(xiàn)無(wú)縫融合,實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一管理。數(shù)據(jù)湖3.0架構(gòu)下,提供了全兼容的HDFS服務(wù)化能力,用戶不再需要搭建元數(shù)據(jù)管理集群,輕松實(shí)現(xiàn)自建HDFS向數(shù)據(jù)湖架構(gòu)遷移;同時(shí),原生具備多協(xié)議的接入能力及多種元數(shù)據(jù)的統(tǒng)一管理,實(shí)現(xiàn)HDFS與對(duì)象存儲(chǔ)底層的無(wú)縫融合,讓數(shù)據(jù)在多種生態(tài)間高效統(tǒng)一流入、管理、使用,幫助用戶加速業(yè)務(wù)創(chuàng)新。

打造數(shù)字經(jīng)濟(jì)的“底座”

我國(guó)高度重視數(shù)字經(jīng)濟(jì)發(fā)展,企業(yè)數(shù)字化轉(zhuǎn)型進(jìn)程不斷加快,數(shù)據(jù)已成為企業(yè)的核心資產(chǎn),根據(jù)計(jì)世資訊統(tǒng)計(jì)數(shù)據(jù)顯示,2020年我國(guó)數(shù)據(jù)總量將超過(guò)5ZB,如何有效管理和使用指數(shù)級(jí)增長(zhǎng)的數(shù)據(jù)是目前企業(yè)數(shù)字化轉(zhuǎn)型過(guò)程中的重要工作之一。數(shù)據(jù)湖在處理企業(yè)的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)工作方面展現(xiàn)出較強(qiáng)的競(jìng)爭(zhēng)力,同時(shí)具有低成本、可拓展性強(qiáng)、靈活高效等特性,越來(lái)越多的企業(yè)選擇數(shù)據(jù)湖作為企業(yè)數(shù)據(jù)存儲(chǔ)與管理的解決方案。

(阿里云數(shù)據(jù)湖整體方案)

經(jīng)過(guò)二十年的發(fā)展,阿里巴巴集團(tuán)已經(jīng)成為一個(gè)數(shù)字經(jīng)濟(jì)體,阿里巴巴集團(tuán)首先是阿里云數(shù)據(jù)湖產(chǎn)品的最佳實(shí)踐者,讓阿里云的數(shù)據(jù)湖產(chǎn)品和方案得到有效的驗(yàn)證,阿里云的數(shù)據(jù)湖方案還支撐了在線教育、互聯(lián)網(wǎng)廣告、新媒體、網(wǎng)絡(luò)游戲等行業(yè)用戶在快速發(fā)展過(guò)程中的實(shí)際業(yè)務(wù)需求。目前,阿里云的數(shù)據(jù)湖方案可支持EB級(jí)別的數(shù)據(jù)存儲(chǔ)與分析,存儲(chǔ)超過(guò)十萬(wàn)Database、一億Table以及十億級(jí)別的Partition,每天完成超過(guò)三十億次的元數(shù)據(jù)服務(wù)請(qǐng)求,支持多個(gè)開源計(jì)算引擎以及多種云原生數(shù)倉(cāng)引擎。阿里云原生數(shù)據(jù)湖可一站式實(shí)現(xiàn)湖存儲(chǔ)、湖加速、湖管理、湖計(jì)算,幫助企業(yè)對(duì)數(shù)據(jù)進(jìn)行深入挖掘與分析。

阿里云為流利說(shuō)量身打造了數(shù)據(jù)湖解決方案,解決了流利說(shuō)多種應(yīng)用的各類數(shù)據(jù)的統(tǒng)一存儲(chǔ),幫助流利說(shuō)構(gòu)建數(shù)據(jù)規(guī)模高達(dá)上千億的“中國(guó)人英語(yǔ)語(yǔ)音數(shù)據(jù)庫(kù)”。使用阿里云構(gòu)建的數(shù)據(jù)湖,可以充分發(fā)揮計(jì)算與解耦合架構(gòu)的優(yōu)點(diǎn),結(jié)合阿里云ECS彈性實(shí)例和K8S,根據(jù)實(shí)際業(yè)務(wù)需求,動(dòng)態(tài)擴(kuò)展、縮減對(duì)應(yīng)計(jì)算資源,無(wú)須按照業(yè)務(wù)峰值常駐計(jì)算資源,幫助流利說(shuō)最大程度地優(yōu)化成本。英語(yǔ)流利說(shuō)CTO胡哲人表示,英語(yǔ)流利說(shuō)使用了阿里云OSS對(duì)象存儲(chǔ)構(gòu)建數(shù)據(jù)湖,支撐千萬(wàn)級(jí)規(guī)模用戶的使用,借助云計(jì)算與存儲(chǔ)的彈性伸縮能力,讓運(yùn)維管理難度大幅度下降的同時(shí),也給整體成本帶來(lái)了有效的優(yōu)化。

易點(diǎn)天下是一家以大數(shù)據(jù)、AI技術(shù)為驅(qū)動(dòng),為企業(yè)國(guó)際化提供智能營(yíng)銷服務(wù)的技術(shù)型公司。阿里云數(shù)據(jù)湖存儲(chǔ)與計(jì)算解耦合的架構(gòu)特點(diǎn)為易點(diǎn)天下提供了豐富靈活且高性價(jià)比的靈活處理模式,OSS可支持豐富的計(jì)算引擎,通過(guò)結(jié)合使用EMR和DLA等,輕松支持易點(diǎn)天下每天20TB新增日志量、每天超100億次的請(qǐng)求以及每小時(shí)3000萬(wàn)數(shù)據(jù)的清洗。易點(diǎn)天下CTO王一舟表示,易點(diǎn)天下在選擇阿里云之前曾經(jīng)使用自建的數(shù)據(jù)集群解決方案,但卻面臨著自建數(shù)據(jù)集群運(yùn)維成本高,彈性伸縮難的問(wèn)題,同時(shí)由于數(shù)據(jù)類型復(fù)雜以及分布地區(qū)眾多,數(shù)據(jù)的綜合治理成本很高,阿里云的服務(wù)幫助易點(diǎn)天下很好地解決了以上的問(wèn)題。

經(jīng)過(guò)二十年的技術(shù)演進(jìn),阿里巴巴實(shí)現(xiàn)了統(tǒng)一存儲(chǔ)的目標(biāo),以“盤古”系統(tǒng)為統(tǒng)一底座,通過(guò)標(biāo)準(zhǔn)化、服務(wù)化和開放化的方式建立了完整的存儲(chǔ)產(chǎn)品和服務(wù)體系,統(tǒng)一服務(wù)內(nèi)部和外部的客戶。一方面,阿里云存儲(chǔ)經(jīng)過(guò)歷年的阿里巴巴“雙11”的錘煉,打造了滿足大規(guī)模業(yè)務(wù)場(chǎng)景超高要求的技術(shù)競(jìng)爭(zhēng)力和產(chǎn)品差異化能力;另一方面,阿里云存儲(chǔ)不斷向阿里云上的數(shù)百萬(wàn)客戶學(xué)習(xí)業(yè)務(wù)架構(gòu)和了解客戶需求,不斷精進(jìn)存儲(chǔ)技術(shù)和產(chǎn)品打磨。9月22日,阿里云宣布云存儲(chǔ)服務(wù)全面升級(jí),包括性能大幅提升300%、時(shí)延降低70%的ESSD企業(yè)級(jí)云盤,可兼容HDFS的數(shù)據(jù)湖存儲(chǔ)OSS,同時(shí)推出全新產(chǎn)品“云定義存儲(chǔ)”(Cloud Defined Storage,CDS)。

總結(jié)而言:阿里云的數(shù)據(jù)湖技術(shù)經(jīng)過(guò)了多年的發(fā)展和打磨,形成了基于對(duì)象存儲(chǔ)OSS的統(tǒng)一存儲(chǔ),通過(guò)云原生技術(shù)無(wú)縫對(duì)接阿里云生態(tài)多種計(jì)算、分析、處理等平臺(tái)與工具,可以快速幫助企業(yè)搭建面向分析和大數(shù)據(jù)技術(shù)生態(tài)的數(shù)據(jù)湖,特別是滿足企業(yè)基于數(shù)據(jù)湖打造機(jī)器學(xué)習(xí)能力,快速滿足各類業(yè)務(wù)需求,幫助企業(yè)把數(shù)據(jù)用活,從數(shù)字化轉(zhuǎn)型走向數(shù)智化大未來(lái)。


立即登錄,閱讀全文
版權(quán)說(shuō)明:
本文內(nèi)容來(lái)自于搜狐,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
相關(guān)文章
阿里云助力《誅仙世界》端游正式開服!
阿里云助力《誅仙世界》端游正式開服!
近?,完美世界游戲歷時(shí)多年打造的新國(guó)?仙俠MMORPG端游《誅仙世界》在阿?云上正式開服。
阿里云
云服務(wù)
2024-12-292024-12-29
一文詳解阿里云AI大基建
一文詳解阿里云AI大基建
面向AI時(shí)代,阿里云基礎(chǔ)設(shè)施是如何創(chuàng)新與發(fā)展的?計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)、服務(wù)器、集群、可觀測(cè)等,阿里云全新升級(jí)的AI Infra到底有哪些重磅更新?
阿里云
云服務(wù)
2024-11-022024-11-02
AI時(shí)代云安全新范式,阿里云安全能力全線升級(jí)!
AI時(shí)代云安全新范式,阿里云安全能力全線升級(jí)!
AI時(shí)代,云安全面臨著新的挑戰(zhàn),不僅要持續(xù)面對(duì)以往的傳統(tǒng)問(wèn)題,更需要全新理念落地于產(chǎn)品設(shè)計(jì)、技術(shù)演進(jìn)、架構(gòu)設(shè)計(jì),才能實(shí)現(xiàn)效果、性能、和成本的最優(yōu)解。
AI
阿里云
云服務(wù)
2024-09-272024-09-27
連續(xù)四年!阿里云領(lǐng)跑中國(guó)公有云大數(shù)據(jù)平臺(tái)
連續(xù)四年!阿里云領(lǐng)跑中國(guó)公有云大數(shù)據(jù)平臺(tái)
近日,國(guó)際數(shù)據(jù)公司(IDC)發(fā)布《中國(guó)大數(shù)據(jù)平臺(tái)市場(chǎng)份額,2023:數(shù)智融合時(shí)代的真正到來(lái)》報(bào)告——2023年中國(guó)大數(shù)據(jù)平臺(tái)公有云服務(wù)市場(chǎng)規(guī)模達(dá)72.2億元人民幣,其中阿里巴巴市場(chǎng)份額保持領(lǐng)先,占比達(dá)40.2%,連續(xù)四年排名第一。
阿里云
云服務(wù)
2024-09-182024-09-18
掃碼登錄
打開掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
個(gè)人VIP
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家