AWS:OMG!你不會(huì)還在自己運(yùn)維開(kāi)源大數(shù)據(jù)框架吧?

來(lái)源: AWS云計(jì)算
作者:AWS云計(jì)算
時(shí)間:2020-11-16
17679
通過(guò)遷移到Amazon Web Services(AWS)上完全管理的服務(wù),企業(yè)可以節(jié)省時(shí)間、成本并提高生產(chǎn)率,將更多的時(shí)間與精力投入到創(chuàng)新和構(gòu)建新的應(yīng)用程序當(dāng)中。

許多企業(yè)都在采用開(kāi)源的大數(shù)據(jù)分析框架在本地或者云上自行運(yùn)維和管理,然而他們也面臨著運(yùn)營(yíng)效率和成本問(wèn)題。通過(guò)遷移到Amazon Web Services(AWS)上完全管理的服務(wù),企業(yè)可以節(jié)省時(shí)間、成本并提高生產(chǎn)率,將更多的時(shí)間與精力投入到創(chuàng)新和構(gòu)建新的應(yīng)用程序當(dāng)中。

接下來(lái)就讓我們一起了解一下如何遷移到AWS托管的大數(shù)據(jù)服務(wù)吧!

案例應(yīng)用

Verizon Media Group如何從本地Apache Hadoop與Spark遷移至Amazon EMR

Verizon Media Group(VMG)

Verizon Media在本質(zhì)上屬于一家在線廣告企業(yè)。目前,大多數(shù)在線廣告主要通過(guò)展示廣告(亦稱(chēng)「橫幅廣告」或「視頻廣告」)形式實(shí)現(xiàn)。無(wú)論具體采取哪種方式,所有互聯(lián)網(wǎng)廣告都需要發(fā)送各種信標(biāo)以實(shí)現(xiàn)服務(wù)器跟蹤。這些服務(wù)器主要為具備高度可擴(kuò)展性的Web服務(wù)器部署,負(fù)責(zé)將接收到的信標(biāo)記錄至一個(gè)或者多個(gè)事件接收器當(dāng)中。

Amazon EMR是一套托管集群平臺(tái),能夠簡(jiǎn)化各類(lèi)大數(shù)據(jù)框架(例如Apache Hadoop與Apache Spark)的運(yùn)行流程。

Verizon Media Group(VMG)面臨的一大主要問(wèn)題,就是無(wú)法在理想的時(shí)間之內(nèi)完成計(jì)算容量擴(kuò)展——硬件采購(gòu)?fù)ǔP枰獛讉€(gè)月才能落實(shí)到位。這就意味著無(wú)法讓硬件的擴(kuò)展與升級(jí)與工作負(fù)載變化匹配起來(lái),這不僅造成了巨大的資金浪費(fèi),同時(shí)也給冗余管理軟件的升級(jí)流程帶來(lái)大量停機(jī)時(shí)間,進(jìn)而極大提升運(yùn)營(yíng)風(fēng)險(xiǎn)。

VMG通過(guò)使用Apache Hadoop以及Apache Spark等技術(shù)方案運(yùn)行數(shù)據(jù)處理管道。VGM之前曾經(jīng)使用過(guò)Cloudera Manager進(jìn)行集群管理,但其發(fā)布周期過(guò)慢,跟不上技術(shù)發(fā)展與業(yè)務(wù)需求的變化。結(jié)果就是,VGM只能使用較為陳舊的開(kāi)源版本,導(dǎo)致無(wú)法充分使用Apache項(xiàng)目上的最新bug修復(fù)與性能改進(jìn)成果。出于以上原因,再加上VGM對(duì)AWS的現(xiàn)有投資,最終他們決定嘗試將分布式計(jì)算管道遷移至Amazon EMR當(dāng)中。

完全托管、高度可用且安全的

Apache Kafka服務(wù)

Amazon Managed Streaming for Apache Kafka

(Amazon MSK)迎來(lái)通用版本

Apache Kafka(Kafka)是一套開(kāi)源平臺(tái),能夠幫助客戶捕捉流式數(shù)據(jù),例如單擊流事件、事務(wù)、物聯(lián)網(wǎng)事件、應(yīng)用程序與機(jī)器日志等,且能夠執(zhí)行實(shí)時(shí)分析、運(yùn)行連續(xù)轉(zhuǎn)換、并將數(shù)據(jù)實(shí)時(shí)分發(fā)至各數(shù)據(jù)湖與數(shù)據(jù)庫(kù)當(dāng)中。

Amazon MSK是完全托管服務(wù),可讓您輕松構(gòu)建并運(yùn)行使用Apache Kafka的應(yīng)用程序來(lái)處理流數(shù)據(jù)。

Kafka本身已經(jīng)成為一套流行的企業(yè)級(jí)數(shù)據(jù)流與消息傳遞框架,但其在生產(chǎn)環(huán)境中的設(shè)置、擴(kuò)展與管理仍然較為困難。Amazon MSK能夠幫助我們執(zhí)行這些管理任務(wù),并結(jié)合高可用性與安全性監(jiān)管要求通過(guò)最佳實(shí)踐將Kafka輕松與Apache ZooKeeper配合起來(lái),共同進(jìn)行置備與配置。

用例分析

通往托管之路:Amazon Elasticsearch Service

Amazon Elasticsearch Service(Amazon ES)是一項(xiàng)完全托管的服務(wù),方便您大規(guī)模經(jīng)濟(jì)高效地部署、保護(hù)和運(yùn)行Elasticsearch。

技術(shù)團(tuán)隊(duì)的最大意義,在于專(zhuān)注于完成真正重要的創(chuàng)新工作,打造出能夠?yàn)槠髽I(yè)帶來(lái)差異化競(jìng)爭(zhēng)優(yōu)勢(shì)的產(chǎn)品及服務(wù)。在這方面,Amazon ES無(wú)疑是一款必不可少的工具,能夠?yàn)槟乃阉髋c分析基礎(chǔ)設(shè)施帶來(lái)強(qiáng)大的運(yùn)營(yíng)穩(wěn)定性、安全性與性能支持。面對(duì)Amazon ES帶來(lái)的以下收益,大家還有什么理由不踏上遷移之旅呢?

1、支持搜索、日志分析、SIEM以及其他多種工作負(fù)載。

2、使用UltraWarm的創(chuàng)新功能管理運(yùn)營(yíng)成本。

3、提供可滿足PCI及HIPAA工作負(fù)載實(shí)際要求的高安全性環(huán)境。

4、能夠?qū)⑦\(yùn)營(yíng)流程移交給經(jīng)驗(yàn)豐富的服務(wù)商,由他們負(fù)責(zé)管理Elasticsearch的大規(guī)模運(yùn)行。

5、提供免費(fèi)插件,借此實(shí)現(xiàn)細(xì)粒度訪問(wèn)控制、基于矢量的相似性算法以及基于事件自動(dòng)響應(yīng)的警報(bào)與監(jiān)控功能。

在起步階段,大家可以嘗試將Amazon ES與AWS Free Tier配合使用。該免費(fèi)層每月提供最多750個(gè)小時(shí)的t2.small.elasticsearch實(shí)例免費(fèi)使用時(shí)長(zhǎng),且每月提供10 GB的EBS存儲(chǔ)(磁盤(pán)或通用)。

服務(wù)簡(jiǎn)介

Amazon Kinesis Data Analytics

無(wú)服務(wù)器流式數(shù)據(jù)處理服務(wù)

Amazon Kinesis流式數(shù)據(jù)處理服務(wù)憑借強(qiáng)大的實(shí)時(shí)處理功能、無(wú)需預(yù)置或管理任何基礎(chǔ)設(shè)施、按實(shí)際用量付費(fèi)這些特點(diǎn),可以幫助企業(yè)快速構(gòu)建流式數(shù)據(jù)處理、分析平臺(tái),獲得對(duì)企業(yè)業(yè)務(wù)運(yùn)營(yíng)的洞察,并幫助企業(yè)實(shí)時(shí)響應(yīng)業(yè)務(wù)和客戶的需求,加速企業(yè)的數(shù)字化轉(zhuǎn)型。

流處理技術(shù)源于企業(yè)的實(shí)際需求,這些企業(yè)經(jīng)歷了數(shù)據(jù)量、數(shù)據(jù)產(chǎn)生速度和數(shù)據(jù)種類(lèi)的巨大增長(zhǎng),并且迫切需要快速攝取和評(píng)估這些數(shù)據(jù)來(lái)進(jìn)行業(yè)務(wù)決策。

與傳統(tǒng)系統(tǒng)的批處理模式(“靜態(tài)數(shù)據(jù)”)相比,處理和分析“運(yùn)動(dòng)”中數(shù)據(jù)的能力已是企業(yè)間的關(guān)鍵差異因素之一。尤其在企業(yè)進(jìn)行數(shù)字化轉(zhuǎn)型的今天,企業(yè)迫切需要對(duì)當(dāng)下正在發(fā)生的事情進(jìn)行分析的需求,而不是對(duì)昨天或上個(gè)月發(fā)生的事情進(jìn)行分析。因此流式數(shù)據(jù)對(duì)企業(yè)越來(lái)越重要,因?yàn)樗茏屍髽I(yè)具有競(jìng)爭(zhēng)優(yōu)勢(shì)。事件發(fā)生后,當(dāng)下的見(jiàn)解會(huì)立即變得有價(jià)值,隨著時(shí)間的流逝其價(jià)值會(huì)迅速下降。

從物聯(lián)網(wǎng)、金融、網(wǎng)絡(luò)安全到零售,實(shí)時(shí)分析、行動(dòng)能力已經(jīng)成為多個(gè)領(lǐng)域SLA的關(guān)鍵要素,企業(yè)正在將流式數(shù)據(jù)與數(shù)據(jù)處理引擎和框架結(jié)合在一起來(lái)創(chuàng)建流數(shù)據(jù)應(yīng)用程序。這類(lèi)名詞有很多,實(shí)時(shí)分析、流分析、復(fù)雜事件處理(CEP)、實(shí)時(shí)流分析和事件處理等。

立即登錄,閱讀全文
版權(quán)說(shuō)明:
本文內(nèi)容來(lái)自于AWS云計(jì)算,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開(kāi)掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
個(gè)人VIP
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家