連續(xù)推出2款數(shù)據(jù)湖新品,AWS張俠剖析亞馬遜的數(shù)據(jù)核心競(jìng)爭(zhēng)力

來(lái)源: 雷鋒網(wǎng)
作者:王剛
時(shí)間:2020-10-14
17592
溝通會(huì)上,張俠也對(duì)AWS的數(shù)據(jù)工作進(jìn)行了深入闡釋,對(duì)AWS的數(shù)據(jù)服務(wù)、產(chǎn)品、重要概念及操作手法做了介紹,同時(shí)揭示了AWS構(gòu)建數(shù)據(jù)湖進(jìn)行分析的背后邏輯。

5e79ec65851b6.jpg

亞馬遜曾經(jīng)是Oracle全球數(shù)據(jù)庫(kù)最大的用戶,我們使用了75PB的數(shù)據(jù)庫(kù),用了7500多個(gè)數(shù)據(jù)庫(kù)的例子,整個(gè)亞馬遜里面1000多個(gè)不同的團(tuán)隊(duì),從運(yùn)營(yíng)、電商、市場(chǎng)營(yíng)銷、庫(kù)存,幾乎業(yè)務(wù)的很多方面原來(lái)都是基于Oracle的數(shù)據(jù)庫(kù)。

我們?cè)谶^(guò)去一年半到兩年的時(shí)間做了一件事情,就是全方位的遷出了Oracle的數(shù)據(jù)庫(kù),去年大概11月份我們?nèi)窟w移了Oracle的數(shù)據(jù)庫(kù),遷移到了我們自己相對(duì)應(yīng)的產(chǎn)品。這個(gè)遷移解決了原來(lái)擴(kuò)展困難、費(fèi)用昂貴,像Oracle支持高額費(fèi)用等等一系列的問(wèn)題,減少了數(shù)據(jù)庫(kù)費(fèi)用成本60%,減少了管理費(fèi)用70%,增加的性能高達(dá)40%。

在近日的一場(chǎng)媒體溝通會(huì)上,AWS首席云計(jì)算企業(yè)戰(zhàn)略顧問(wèn)張俠如此感慨。這相似的一幕,雷鋒網(wǎng)編輯曾經(jīng)兩次在AWS re:Invent現(xiàn)場(chǎng)聽到亞馬遜CTO沃納·威格爾提起過(guò)。

然而,當(dāng)年那場(chǎng)大獲全勝的“去O”僅僅只是開始,實(shí)際上AWS多年來(lái)對(duì)于數(shù)據(jù)做了相當(dāng)多的細(xì)致工作。

就在3月24日這天,AWS連續(xù)宣布2個(gè)新產(chǎn)品正式在由西云數(shù)據(jù)運(yùn)營(yíng)的AWS中國(guó)(寧夏)區(qū)域上線:AWS Glue和Amazon Athena

從具體功能來(lái)看:

·AWS Glue在由西云數(shù)據(jù)運(yùn)營(yíng)的AWS中國(guó)(寧夏)區(qū)域正式上線。AWS Glue是一種全托管的數(shù)據(jù)提取、轉(zhuǎn)換和加載(ETL)服務(wù)及元數(shù)據(jù)目錄。它讓客戶更容易準(zhǔn)備數(shù)據(jù),加載數(shù)據(jù)到數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖,用于數(shù)據(jù)分析。使用AWS Glue,在幾分鐘之內(nèi)便可以準(zhǔn)備好數(shù)據(jù)用于分析。由于AWS Glue是無(wú)服務(wù)器服務(wù),客戶在執(zhí)行ETL任務(wù)時(shí),只需要為他們所消耗的計(jì)算資源付費(fèi)。

·Amazon Athena在由西云數(shù)據(jù)運(yùn)營(yíng)的AWS中國(guó)(寧夏)區(qū)域正式上線。Amazon Athena是一種交互式查詢服務(wù),它讓客戶可以使用標(biāo)準(zhǔn)SQL語(yǔ)言、輕松分析Amazon Simple Storage Service(Amazon S3)中的數(shù)據(jù)。由于Athena是一種無(wú)服務(wù)器服務(wù),因此客戶不需要管理基礎(chǔ)設(shè)施,而且只為他們運(yùn)行的查詢付費(fèi)。Athena可以自動(dòng)擴(kuò)展,并行執(zhí)行查詢,所以即便是大型數(shù)據(jù)集和復(fù)雜的查詢,也能很快獲得查詢結(jié)果。

這2個(gè)發(fā)布,也意味著AWS在數(shù)據(jù)湖和數(shù)據(jù)分析的解決方案上越趨完整。

溝通會(huì)上,張俠也對(duì)AWS的數(shù)據(jù)工作進(jìn)行了深入闡釋,對(duì)AWS的數(shù)據(jù)服務(wù)、產(chǎn)品、重要概念及操作手法做了介紹,同時(shí)揭示了AWS構(gòu)建數(shù)據(jù)湖進(jìn)行分析的背后邏輯。

雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))特在其原話基礎(chǔ)上做了不改變?cè)獾木庉嬇c整理。

亞馬遜是怎么來(lái)實(shí)現(xiàn)數(shù)據(jù)湖的概念的?

數(shù)據(jù)湖的概念大概最早是2011年5月份提出來(lái)的,所以到現(xiàn)在只有八九年的時(shí)間。

亞馬遜在很早的時(shí)間就推動(dòng)了有關(guān)數(shù)據(jù)湖的內(nèi)容,首先亞馬遜有一個(gè)最基礎(chǔ)的云服務(wù),這個(gè)服務(wù)叫做Amazon S3,是2006年3月14日白色情人節(jié)的那天發(fā)布的,是全球所有的公有云服務(wù)的第一款。Amazon S3可以存任何二進(jìn)位為基礎(chǔ)的任何信息,包含結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。左邊這個(gè)圖上半部的服務(wù),可以圍繞這些數(shù)據(jù)來(lái)做各種各樣的操作。底下畫的是一些做數(shù)據(jù)轉(zhuǎn)移的工具。

5e79e9a7aaea9.png

從右邊可以大致看一下數(shù)據(jù)湖的流程圖或者平臺(tái)架構(gòu)圖,總的來(lái)說(shuō)各種各樣的數(shù)據(jù),從鏡頭來(lái)的、從手機(jī)來(lái)的、從數(shù)據(jù)庫(kù)來(lái)的、從汽車上來(lái)的、從風(fēng)力發(fā)電的發(fā)電機(jī)來(lái)的等等所有各種形式的數(shù)據(jù),我們把它通過(guò)一定的方法提取出來(lái),產(chǎn)生了之后存儲(chǔ)下來(lái),做一個(gè)目錄登記,然后把它存在S3這個(gè)數(shù)據(jù)存儲(chǔ),也是數(shù)據(jù)湖的核心里面。

然后再用各種各樣的分析手段把這些數(shù)據(jù)在右邊拿出來(lái),它還可以還原成數(shù)據(jù)倉(cāng)庫(kù)的性質(zhì),也可以變成各種報(bào)表,也可以變成一些預(yù)測(cè),也可以用來(lái)做機(jī)器學(xué)習(xí)的分析。所以這個(gè)是整個(gè)數(shù)據(jù)湖的概念。

5e79ea8bc6fbb.png

基于此,我們看到數(shù)據(jù)湖是一個(gè)對(duì)各種各樣原始數(shù)據(jù),就像雨水、河水等等,我們用洼地把它存起來(lái),這里面有各種各樣的數(shù)據(jù),我們?cè)谶@之上可以做我們所需要的各類數(shù)據(jù)分析,有交互式的查詢、有運(yùn)營(yíng)的分析、也可以把數(shù)據(jù)進(jìn)行交換甚至是買賣,可以可視化的看到這些數(shù)據(jù),可以做實(shí)時(shí)的分析,可以做推薦、做預(yù)測(cè),做所有的數(shù)據(jù)所需要的功能。

從AWS的角度講,我們有相應(yīng)的服務(wù)來(lái)實(shí)現(xiàn)剛才所說(shuō)的每一個(gè)功能。我會(huì)為大家做一下這些服務(wù)的簡(jiǎn)單介紹。所有這些服務(wù)在我們的網(wǎng)站上都有很詳細(xì)的中英文介紹。所有這些服務(wù)都是以云的方式提供的,非常簡(jiǎn)潔、非常容易上手,有很多還有操作的引導(dǎo)性質(zhì)的內(nèi)容。

我們?cè)诖酥耙呀?jīng)講了我們有Amazon S3,可以存所有各類的數(shù)據(jù),它有11個(gè)9的數(shù)據(jù)持久性,它是在云上面三個(gè)可用區(qū)存了六份,互為備份。它后端還有一個(gè)冷存儲(chǔ)叫Amazon Glacier(glacier的意思是冰河)。如果這個(gè)數(shù)據(jù)不常用,我們可以轉(zhuǎn)到那里面,費(fèi)用可以降低很多,只是多需要三四個(gè)小時(shí)把它拿出來(lái)。

冷存儲(chǔ)還有一個(gè)深度的冷存儲(chǔ)Deep Archive。除了這個(gè)以外,在我開始講之前,還有一個(gè)叫Amazon DynamoDB,是一個(gè)非關(guān)系型數(shù)據(jù)庫(kù),存鍵值這類的數(shù)據(jù)。在游戲里面比如每個(gè)玩家是第幾級(jí)、有多少血、用什么樣的武器,這樣的數(shù)都是鍵值配對(duì)的數(shù)。全球有大量這樣的數(shù)據(jù)都存儲(chǔ)在Amazon DynamoDB這樣的非關(guān)系型數(shù)據(jù)庫(kù)。

看一看其他的服務(wù)。一個(gè)是Amazon RDS服務(wù),RDS全稱是Relational Database Service,是一個(gè)托管的關(guān)系型數(shù)據(jù)庫(kù),這個(gè)是從AWS角度最早云計(jì)算推出的關(guān)系型數(shù)據(jù)庫(kù),它支持像SQL Server、Oracle的數(shù)據(jù)庫(kù)、開源的PostgreSQL、MySQL這樣的數(shù)據(jù)庫(kù)。

5e79e9a79ee1a.png

我們很快又推出了我們專有的Amazon Aurora數(shù)據(jù)庫(kù),這是一個(gè)關(guān)系型數(shù)據(jù)庫(kù),是云原生的。剛才那個(gè)是托管在云上的關(guān)系型數(shù)據(jù)庫(kù),現(xiàn)在這個(gè)Aurora是一個(gè)全部的全方位托管的,可以兼容MySQL和PostgreSQL純?cè)臄?shù)據(jù)庫(kù)。

這個(gè)數(shù)據(jù)庫(kù)推出以后,是AWS所有的云服務(wù)里面增長(zhǎng)速度最快的一個(gè)服務(wù),有大量的用戶,到目前為止,我提到這些服務(wù)都是在中國(guó)落地了,也都是在國(guó)內(nèi)提供的。

很重要的一個(gè)產(chǎn)品是一個(gè)云的產(chǎn)品,叫Amazon Redshift,它是一個(gè)數(shù)據(jù)倉(cāng)庫(kù),但是它是一個(gè)云的數(shù)據(jù)倉(cāng)庫(kù),非常強(qiáng)大,非常能夠縮放,成本也是傳統(tǒng)的數(shù)據(jù)庫(kù)的大概1/10左右。如果你從數(shù)據(jù)庫(kù)還需要到數(shù)據(jù)倉(cāng)庫(kù),大家看到在云上我們同樣完全可以實(shí)現(xiàn)這些解決方案,從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)。而且數(shù)據(jù)倉(cāng)庫(kù)我們還有很多很多新型的準(zhǔn)備,在這次會(huì)議當(dāng)中不可能完全提到。

我給大家報(bào)告一下其中包括圖形數(shù)據(jù)庫(kù)Amazon Neptune,全球發(fā)布之后,在過(guò)去的半年之內(nèi)也在中國(guó)落地。所以中國(guó)用戶也能使用最新型的圖形數(shù)據(jù)庫(kù)。

5e79e9f649a07.png

還有一類是Amazon EMR,EMR是Elastic MapReduce,它是用集群,用類似開源我們常聽說(shuō)的Hadoop的方法來(lái)做大數(shù)據(jù)的集群分析。這個(gè)EMR產(chǎn)品是亞馬遜云上做海量大數(shù)據(jù)的研究它們之間的相關(guān)性的方法,這個(gè)產(chǎn)品我們也有了很長(zhǎng)時(shí)間,在國(guó)內(nèi)也早已提供。

還有一個(gè)很重要的概念,就是來(lái)處理實(shí)時(shí)的數(shù)據(jù),因?yàn)楹驮瓉?lái)的比,現(xiàn)在的特點(diǎn)是更多要使用實(shí)時(shí)的數(shù)據(jù),原來(lái)更多的是批量的歷史數(shù)據(jù),處理實(shí)時(shí)數(shù)據(jù)我們的服務(wù)叫Amazon Kinesis,還有四個(gè)不同的類型,有的是直接處理視頻的數(shù)據(jù)流,有的是可以把數(shù)據(jù)直接導(dǎo)到關(guān)鍵的服務(wù),每個(gè)各自都有不同的用法。這個(gè)實(shí)時(shí)數(shù)據(jù)分析是分析框架很重要的一部分。

兩個(gè)數(shù)據(jù)湖中重要服務(wù):Amazon Athena和AWS Glue

重點(diǎn)給大家推介的是下面兩個(gè)服務(wù),都是數(shù)據(jù)湖非常重要的組成部分,我們是在今年第一季度才在中國(guó)正式發(fā)布的。

5e79ea4b24f7b.png

第一個(gè)產(chǎn)品叫做Amazon Athena,英文Athena意思是雅典娜,這是交互式的數(shù)據(jù)查詢的工具。我們把各種數(shù)據(jù)都存在S3上面了,使用SQL可以直接在S3里面對(duì)這些數(shù)據(jù)做查詢,所以它是交互式的查詢,使得快速存起來(lái)的海量的數(shù)據(jù)有個(gè)工具可以像傳統(tǒng)的使用SQL語(yǔ)言一樣的方法,標(biāo)準(zhǔn)的數(shù)據(jù)庫(kù)查詢的語(yǔ)言,直接對(duì)S3做數(shù)據(jù)的查詢。

5e79ea19c47e5.png

第二個(gè)服務(wù)叫做AWS Glue,Glue是膠水的意思,是不同的數(shù)據(jù)庫(kù)服務(wù)之間的連接的作用。最主要有兩個(gè)功能,一個(gè)是ETL,ETL是Extract、Transform和Load,是數(shù)據(jù)里面一個(gè)最基本的操作,翻譯過(guò)來(lái)就叫數(shù)據(jù)的抽取、轉(zhuǎn)換和加載。原來(lái)從數(shù)據(jù)庫(kù)提到數(shù)據(jù)倉(cāng)庫(kù)使用的都是ETL,所以Glue同時(shí)還是行使著數(shù)據(jù)的抽取、轉(zhuǎn)換、加載的功能。另外還多了一個(gè)功能,就是數(shù)據(jù)目錄服務(wù)的功能,因?yàn)榘堰@些數(shù)據(jù)都存在數(shù)據(jù)湖里面,在這個(gè)過(guò)程中,要對(duì)這些數(shù)據(jù)打上標(biāo)簽,把它做分類的工作。而且Glue有一個(gè)直接就像爬蟲一樣對(duì)數(shù)據(jù)湖里的海量數(shù)據(jù),通過(guò)它的自動(dòng)爬取,生成數(shù)據(jù)目錄的功能。

所以這兩個(gè)服務(wù)我們?cè)诤M馔瞥鲇幸欢螘r(shí)間,但是我們?cè)诮衲暝趪?guó)內(nèi)都完成了它們的正式發(fā)布,所以目前我們和光環(huán)新網(wǎng)聯(lián)合運(yùn)行的北京的區(qū)域,還有和西云數(shù)據(jù)在寧夏中衛(wèi)運(yùn)營(yíng)的區(qū)域里面,都已經(jīng)提供了這些服務(wù)。

雖然數(shù)據(jù)湖是一個(gè)非常好的辦法,但是還是稍微有一定的復(fù)雜度。我非常快的介紹一下數(shù)據(jù)湖的操作步驟。

我們把數(shù)據(jù)設(shè)置好,存起來(lái),然后把這些數(shù)據(jù)需要移動(dòng)、加載到不同的地方,然后把數(shù)據(jù)清理好,建成數(shù)據(jù)目錄。要管理的這些存儲(chǔ),然后把這些數(shù)據(jù)要安全的、合規(guī)的存好、管好,然后需要的時(shí)候有些工具把這些數(shù)據(jù)拿出來(lái)做各種分析。這就是數(shù)據(jù)湖操作的一些步驟。

5e79ea59e56ac.png

連續(xù)推出2款數(shù)據(jù)湖新品,AWS張俠剖析亞馬遜的數(shù)據(jù)核心競(jìng)爭(zhēng)力

我們也專門推出了一個(gè)服務(wù),這個(gè)服務(wù)叫做AWS Lake Formation,是在前年的技術(shù)大會(huì)上我們發(fā)布的,這個(gè)服務(wù)目前還沒(méi)有在中國(guó)正式推出,但是我們?cè)诮衲旰芸斓臅r(shí)間內(nèi)會(huì)推出這個(gè)服務(wù),把建立數(shù)據(jù)湖剛才的這套工作自動(dòng)化,幫助你來(lái)操作,可以使很多企業(yè)在短短的幾天的時(shí)間完成數(shù)據(jù)湖的建設(shè)工作。

從亞馬遜來(lái)說(shuō),我們還有一些更多的服務(wù),比如我們有量子的記賬式的數(shù)據(jù)庫(kù)、有時(shí)間序列的數(shù)據(jù)庫(kù),還有兩三個(gè)新型數(shù)據(jù)庫(kù)目前還沒(méi)有提供。

在這之上是數(shù)據(jù)湖,數(shù)據(jù)湖最主要的元素是三大元素:一個(gè)是Amazon S3/Glacier,一個(gè)是AWS Glue,一個(gè)是AWS Lake Formation。AWS Lake Formation是目前沒(méi)有提供,但是很快會(huì)提供的一個(gè)產(chǎn)品服務(wù)。

數(shù)據(jù)分析的工具,Amazon Redshift是數(shù)據(jù)倉(cāng)庫(kù),Amazon EMR是大數(shù)據(jù)分析,AWS Glue在里面仍起關(guān)鍵作用,來(lái)實(shí)現(xiàn)無(wú)服務(wù)器的數(shù)據(jù)分析,然后是Amazon Athena(雅典娜)是做交互式的分析,Amazon Elasticsearch是做一些運(yùn)維分析,還有Amazon Kinesis做實(shí)時(shí)的數(shù)據(jù)分析。

最上面是我們的一些展現(xiàn)工具,有圖形可視化的Amazon QuickSight,還有Amazon Polly、Amazon Transcribe、Amazon SageMaker。Amazon SageMaker是一個(gè)人工智能的服務(wù),在中國(guó)很快會(huì)推出。

所以整個(gè)大數(shù)據(jù)分析服務(wù)的全景圖就以這張圖給大家展示出來(lái)。絕大多數(shù)服務(wù)在中國(guó)都已經(jīng)落地,我們已經(jīng)全方位的可以提供最先進(jìn)的數(shù)據(jù)湖的大數(shù)據(jù)分析,我們有很多客戶來(lái)使用。

為什么使用AWS來(lái)構(gòu)建數(shù)據(jù)湖和進(jìn)行分析?

為什么使用AWS來(lái)構(gòu)建數(shù)據(jù)湖和進(jìn)行分析呢?

簡(jiǎn)而言之,它既好用又高效又全面又安全,又能滿足多種多樣的需求。AWS的創(chuàng)新都是圍繞客戶需求來(lái)做的。

Forrester 2019年大數(shù)據(jù)分析的報(bào)告,AWS是排在最高的位置,其實(shí)還有類似的一些其他的,比如Gartner的數(shù)據(jù)庫(kù)的分析報(bào)告,還有數(shù)據(jù)管理工具解決方案的報(bào)告,我們都排在很好的位置。在全球范圍內(nèi),包括在中國(guó),其實(shí)有大量的各種各樣的無(wú)論是互聯(lián)網(wǎng)公司還是傳統(tǒng)企業(yè)公司都在使用AWS的數(shù)據(jù)分析、數(shù)據(jù)湖的分析工具。

即使是使用了全套數(shù)據(jù)湖的也有上萬(wàn)家企業(yè),其中大家看到有Airbnb,yelp相當(dāng)于美國(guó)的大眾點(diǎn)評(píng),有旅行的公司,有最大的制藥公司等等,幾乎覆蓋了各行各業(yè)。

不用講別人,就講講亞馬遜自己。

5e79ea5a03d6b.png

亞馬遜曾經(jīng)是Oracle全球數(shù)據(jù)庫(kù)最大的用戶,它使用了75PB的數(shù)據(jù)庫(kù),用了7500多個(gè)數(shù)據(jù)庫(kù)的例子,整個(gè)亞馬遜里面1000多個(gè)不同的團(tuán)隊(duì),從運(yùn)營(yíng)、電商、市場(chǎng)營(yíng)銷、庫(kù)存,幾乎業(yè)務(wù)的很多方面原來(lái)都是基于Oracle的數(shù)據(jù)庫(kù)。

我們?cè)谶^(guò)去一年半到兩年的時(shí)間做了一件事情,就是全方位的遷出了Oracle的數(shù)據(jù)庫(kù),去年大概11月份我們?nèi)窟w移了Oracle的數(shù)據(jù)庫(kù),遷移到了我們自己相對(duì)應(yīng)的產(chǎn)品。這個(gè)遷移解決了原來(lái)擴(kuò)展困難、費(fèi)用昂貴,像Oracle支持高額費(fèi)用等等一系列的問(wèn)題,減少了數(shù)據(jù)庫(kù)費(fèi)用成本60%,減少了管理費(fèi)用70%,增加的性能高達(dá)40%。

另外一個(gè)例子,就是亞馬遜其實(shí)在整個(gè)企業(yè)內(nèi)部建立了一個(gè)數(shù)據(jù)湖,這個(gè)數(shù)據(jù)湖還專門有一個(gè)內(nèi)部的詞,叫Galaxy(銀河),這不是AWS的一個(gè)產(chǎn)品,這是亞馬遜的一個(gè)數(shù)據(jù)湖的部署。

整個(gè)數(shù)據(jù)湖把亞馬遜的數(shù)據(jù)整合在一起,做各種各樣大數(shù)據(jù)的分析,里面存了50PB到100PB的數(shù)據(jù),這里面通過(guò)它,亞馬遜每一天有多達(dá)60萬(wàn)的分析任務(wù),各種各樣的數(shù)據(jù)的分析,從給用戶的推薦、各種運(yùn)營(yíng)的信息、庫(kù)存的信息、需要購(gòu)買的信息、物價(jià)的信息,都是可以通過(guò)數(shù)據(jù)湖來(lái)實(shí)現(xiàn)的功能。

這也是亞馬遜的一個(gè)核心競(jìng)爭(zhēng)力。(雷鋒網(wǎng))

本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。

立即登錄,閱讀全文
版權(quán)說(shuō)明:
本文內(nèi)容來(lái)自于雷鋒網(wǎng),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
掃碼登錄
打開掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
個(gè)人VIP
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家