"There is no compression algorithm for experience."
“經(jīng)驗(yàn)沒(méi)有壓縮算法。”
—Amazon CEO Andy Jassy
在過(guò)去的15年里,我們不僅見(jiàn)證了客戶們使用亞馬遜云科技提供的計(jì)算服務(wù)實(shí)現(xiàn)諸多宏大的企業(yè)目標(biāo),還見(jiàn)證了客戶們不斷挑戰(zhàn)這些工具的極限。2006年就如昨日一般,但15年前的世界與現(xiàn)在大不相同。在手機(jī)非智能時(shí)代,甚至沒(méi)人知道APP商店為何物,當(dāng)時(shí)最受歡迎的手機(jī)應(yīng)用程序也許是《貪吃蛇II》。如果想在家看電影,需要等幾天才能收到寄來(lái)的影碟。
十五年來(lái),亞馬遜也經(jīng)歷了巨大的變化。作為一家電子商務(wù)公司,亞馬遜經(jīng)歷了爆發(fā)式的增長(zhǎng)。當(dāng)時(shí),剛剛推出了亞馬遜Prime服務(wù)的亞馬遜云科技,為數(shù)百萬(wàn)件商品無(wú)條件提供免費(fèi)兩日達(dá)的送貨服務(wù)。而由這類業(yè)務(wù)所帶來(lái)的IT行業(yè)復(fù)雜的挑戰(zhàn),讓亞馬遜重新審視自己,找尋行業(yè)解決方案。
2003年底,亞馬遜開(kāi)始正式思考“云服務(wù)”問(wèn)題。未來(lái)企業(yè)要在通用服務(wù)之上構(gòu)建應(yīng)用的話,那么操作系統(tǒng)就會(huì)網(wǎng)絡(luò)化,也就是現(xiàn)在所說(shuō)的“云”,這種操作系統(tǒng)將需要一組公共組件,類似于亞馬遜已經(jīng)在內(nèi)部實(shí)現(xiàn)的組件化。正是這一發(fā)現(xiàn),讓亞馬遜意識(shí)到,互聯(lián)網(wǎng)操作系統(tǒng)可以套用這種部件。因此,亞馬遜定下目標(biāo):為企業(yè)和開(kāi)發(fā)者提供工具和服務(wù),讓他們能構(gòu)建所有的應(yīng)用并運(yùn)行所有的工作負(fù)載。
如何讓計(jì)算變得像開(kāi)燈一樣簡(jiǎn)單,這是亞馬遜云科技早期一直思考的問(wèn)題。
一個(gè)世紀(jì)前,多數(shù)美國(guó)大型制造企業(yè)仍然想通過(guò)自己發(fā)電為工廠供電。隨著電網(wǎng)的普及,公司開(kāi)始關(guān)閉自己的發(fā)電廠,因?yàn)樗麄兛梢噪S時(shí)隨地獲得更經(jīng)濟(jì)的電力資源。
如今的計(jì)算領(lǐng)域也是如此,就像早期電網(wǎng)的轉(zhuǎn)變一樣,算力可以在你需要的時(shí)候打開(kāi)和關(guān)閉??蛻羰褂脕嗰R遜云科技服務(wù)時(shí),立刻就能獲得比自己搭建硬件平臺(tái)還要多的計(jì)算資源,而且它們也是可以靈活釋放的算力。
在云計(jì)算出現(xiàn)之前IT部門對(duì)計(jì)算機(jī)硬件生命周期,采用截然不同的管理方法,大多數(shù)人會(huì)購(gòu)買新的硬件,安裝好然后用上三五年,直到因?yàn)榉?wù)需要或者硬件出現(xiàn)故障才把它們淘汰掉。
早期的亞馬遜云科技專家對(duì)自己的數(shù)據(jù)中心也使用相同的方法。他們啟用一個(gè)實(shí)例,長(zhǎng)時(shí)間運(yùn)行,并最終在工作轉(zhuǎn)移到一個(gè)新的實(shí)例或服務(wù)時(shí)將其關(guān)閉。
這一切都在2008年改變了。一個(gè)周四的下午,亞馬遜云科技控制臺(tái)的啟用速度突然提升。彼時(shí),從未出現(xiàn)過(guò)如此多的實(shí)例快速啟動(dòng)或終止。于是亞馬遜云科技日以繼夜的工作,確保所有的系統(tǒng)正常運(yùn)行,盡管當(dāng)時(shí)我們做了所有的設(shè)計(jì)和測(cè)試,但從未設(shè)想自己的基礎(chǔ)設(shè)施會(huì)應(yīng)對(duì)這種規(guī)模的操作。
突如其來(lái)的增長(zhǎng)
這一增長(zhǎng)是由一家名為Animoto的初創(chuàng)公司推動(dòng)的,他們?cè)贏mazon EC2、Amazon S3和Amazon SQS上構(gòu)建了一個(gè)服務(wù)讓用戶上傳一系列圖像,以生成帶有配樂(lè)和轉(zhuǎn)場(chǎng)特效的視頻。在當(dāng)時(shí),這種技術(shù)是全新的,有很多后臺(tái)的工作要做:在圖像加載后,專有算法會(huì)分析它們,根據(jù)圖像的數(shù)量和大小,然后渲染出最終的視頻。這需要相當(dāng)大的算力,至少在2008年是相當(dāng)大的。
就在前一個(gè)月,該團(tuán)隊(duì)將Animoto的一款新視頻服務(wù)作為Facebook應(yīng)用推出,當(dāng)時(shí)的效果很好,當(dāng)月注冊(cè)用戶人數(shù),就高達(dá)2.5萬(wàn)人。然而,他們注意到有相當(dāng)一部分Facebook用戶,雖然激活了這款應(yīng)用,但從未制作過(guò)Animoto視頻,Animoto團(tuán)隊(duì)意識(shí)到他們的使用很大程度上依賴于,看到的第一個(gè)Animoto視頻中的驚喜點(diǎn)并想要與朋友們分享的心情。
于是,團(tuán)隊(duì)在周一時(shí)對(duì)應(yīng)用程序做了一個(gè)細(xì)小但重要的改變:他們?yōu)橛脩糇詣?dòng)創(chuàng)建了第一個(gè)Animoto視頻。在四天內(nèi),他們的用戶從2.5萬(wàn)增加到25萬(wàn)。每個(gè)用戶都有一個(gè)自動(dòng)生成的視頻,每個(gè)視頻都將啟動(dòng),使用和終止一個(gè)單獨(dú)的Amazon EC2實(shí)例。在前一個(gè)月,他們使用了50到100個(gè)實(shí)例。
而在周二,實(shí)例的使用量峰值達(dá)到400左右;到周三,這一數(shù)字達(dá)到了900;然后到周五早上,實(shí)例總數(shù)多達(dá)3400個(gè)。這是亞馬遜云科技第一次看到這種規(guī)模的實(shí)例自動(dòng)創(chuàng)建和終止,并響應(yīng)客戶的敏捷操作。亞馬遜云科技知道這是一種在容器和服務(wù)領(lǐng)域中廣泛使用的范例,全部在云端實(shí)現(xiàn),
100萬(wàn)個(gè)實(shí)例的啟動(dòng)慶典
2009年是亞馬遜云科技的第100萬(wàn)個(gè)實(shí)例的啟動(dòng)慶典,亞馬遜云科技花了兩年時(shí)間和無(wú)數(shù)的努力才走到這一步。當(dāng)計(jì)數(shù)器響起時(shí),對(duì)亞馬遜云科技來(lái)說(shuō)是一個(gè)巨大的里程碑。僅僅四個(gè)月后,亞馬遜云科技就看到Amazon EC2有超過(guò)了200萬(wàn)個(gè)實(shí)例,并在兩個(gè)月后達(dá)到了300萬(wàn)例。大約就在那時(shí)亞馬遜云科技就不再計(jì)數(shù)了,在當(dāng)初亞馬遜云科技并沒(méi)有預(yù)料到能支持如此大規(guī)模的實(shí)例,每天都有超過(guò)6000萬(wàn)個(gè)新Amazon EC2實(shí)例。
幫助企業(yè)靈活應(yīng)對(duì)外部挑戰(zhàn)
有了這么大的規(guī)模,亞馬遜云科技不僅能夠?qū)崿F(xiàn)最初的承諾而且對(duì)任何工作負(fù)載,都能提供更好的支持。同時(shí),我們還能夠幫助企業(yè)更快地,更好地應(yīng)對(duì)外部挑戰(zhàn)。這一點(diǎn)在過(guò)去一年半的時(shí)間里表現(xiàn)得最為明顯。
新冠肺炎疫情影響了所有人的日常生活,包括學(xué)習(xí),工作和娛樂(lè)。這給IT負(fù)責(zé)人們帶來(lái)了巨大的壓力,他們需要快速響應(yīng),擴(kuò)大業(yè)務(wù)規(guī)模,來(lái)滿足從面對(duì)面交流和交易轉(zhuǎn)到線上的需求。這也帶來(lái)了對(duì)云服務(wù)的巨大需求。亞馬遜云科技迅速作出反應(yīng)為客戶提供了,可擴(kuò)展且可靠的基礎(chǔ)設(shè)施資源,以及技術(shù)支持。
例如,美國(guó)金融業(yè)監(jiān)管局(FINRA),是美國(guó)的經(jīng)濟(jì)和交易所市場(chǎng)的監(jiān)管機(jī)構(gòu)。當(dāng)它們的交易量增加了兩到三倍,利用亞馬遜云科技的計(jì)算資源使得他們能夠自動(dòng)評(píng)估,并處理創(chuàng)紀(jì)錄的交易峰值。并在沒(méi)有人工干預(yù)的情況下,釋放計(jì)算資源。FINRA在一天內(nèi)自動(dòng)創(chuàng)建和釋放了,多達(dá)10萬(wàn)個(gè)實(shí)例。
如同其他家庭娛樂(lè)服務(wù)一樣,Netflix同樣發(fā)現(xiàn)了,觀看人數(shù)和會(huì)員人數(shù)的增長(zhǎng)勢(shì)頭。為了滿足這一需求,Netflix公司的后端IT服務(wù)需要迅速擴(kuò)大規(guī)模。亞馬遜云科技和Netflix公司建立長(zhǎng)期合作的關(guān)鍵,在于亞馬遜云科技不僅能夠滿足擴(kuò)容需求和計(jì)算存儲(chǔ),也能提供必備的自動(dòng)化和管理。與此同時(shí),這種擴(kuò)容需求的激增。
在此期間,亞馬遜云科技極大地避免了重大中斷的出現(xiàn),并且能夠繼續(xù)擴(kuò)大規(guī)模以滿足客戶的需求。然而,做到這一點(diǎn)并不容易。管理好云資源從而實(shí)現(xiàn)人們眼中近乎無(wú)限的算力,是一個(gè)非常復(fù)雜的問(wèn)題。
如何管理好復(fù)雜“云資源”
在過(guò)去的15年里亞馬遜云科技在這方面,投入了大量資源,事實(shí)上我們很早就知道資源管理是多么復(fù)雜。在2007年,當(dāng)亞馬遜云科技遇到一個(gè)意想不到的資源峰值時(shí),可以通過(guò)釋放Amazon EC2團(tuán)隊(duì)自己正在使用的幾個(gè)實(shí)例來(lái)解決它。
即使,當(dāng)時(shí)的規(guī)模就是如此有限,而如今亞馬遜云科技擁有復(fù)雜的預(yù)測(cè)算法和優(yōu)化的供應(yīng)鏈以確保有足夠的資源容量,可以應(yīng)對(duì)一切激增的需求,有時(shí)需求甚至是在一夜之間爆發(fā)。
多年來(lái),亞馬遜云科技已經(jīng)研究出如何在“云”規(guī)模下運(yùn)作,如何應(yīng)對(duì)幾乎所有需求以及挑戰(zhàn),并且永遠(yuǎn)不會(huì)對(duì)客戶說(shuō)不。我們的客戶可根據(jù)需求自動(dòng)預(yù)估資源,無(wú)需任何人工干預(yù)。某些客戶的系統(tǒng)甚至有可以在一天內(nèi),自動(dòng)創(chuàng)建和關(guān)閉多達(dá)數(shù)十萬(wàn)個(gè)計(jì)算節(jié)點(diǎn)。
亞馬遜云科技是如何做到這一點(diǎn)的呢?以及是如何積極應(yīng)對(duì)需求的巨大峰值,和實(shí)現(xiàn)人們眼中近乎無(wú)限的算力?亞馬遜云科技提供這種服務(wù)的能力在很大程度上,與亞馬遜云科技管理供應(yīng)鏈的能力有關(guān),這是亞馬遜云科技的獨(dú)特優(yōu)勢(shì)。
快速響應(yīng)突發(fā)的疫情
早在很多人意識(shí)到疫情的嚴(yán)重性之前,亞馬遜云科技就在2020年1月初,開(kāi)始調(diào)整供應(yīng)鏈以應(yīng)對(duì)爆發(fā)的疫情。我們將生產(chǎn)轉(zhuǎn)移到疫情影響較小的國(guó)家,確保有后備供應(yīng)商,從而能夠應(yīng)對(duì)任何暫時(shí)性的供應(yīng)中斷。同時(shí),我們還將裝配線移到離數(shù)據(jù)中心更近的地方,使產(chǎn)品能夠快速提升資源容量。依托強(qiáng)大的供應(yīng)鏈伙伴關(guān)系,使我們能夠在需要時(shí)迅速行動(dòng)
除此以外,我們還有一個(gè)預(yù)測(cè)團(tuán)隊(duì),他們管理一個(gè)基于外部因素,以及內(nèi)部信號(hào)和歷史經(jīng)驗(yàn)來(lái)統(tǒng)計(jì)模型。例如,如果有一個(gè)大型電子游戲發(fā)布或者合作伙伴的視頻會(huì)議有額外的需求,就會(huì)與基礎(chǔ)設(shè)施合作伙伴和制造商合作,確保在這些活動(dòng)之前擁有所需的資源容量。
“顧客至尚”的文化使亞馬遜云科技能夠在客戶日常運(yùn)營(yíng)和業(yè)務(wù)發(fā)展的過(guò)程中滿足他們的需求。這一點(diǎn)得到了行業(yè)分析師的一致認(rèn)可。Gartner的魔力象限已經(jīng)連續(xù)第11年將亞馬遜云科技列為云基礎(chǔ)設(shè)施平臺(tái),以及服務(wù)象限的領(lǐng)導(dǎo)者。
數(shù)百萬(wàn)組織在亞馬遜云科技計(jì)算平臺(tái)上運(yùn)行不同的工作負(fù)載。我們正幫助包括Lyft、Netflix、Coca-Cola和Moderna等企業(yè)降低基礎(chǔ)設(shè)施成本,并加快世界上最可靠、安全、功能強(qiáng)大的云技術(shù)的創(chuàng)新。
*本文節(jié)選自Amazon EC2副總裁David Brown演講