2021
全球分布式云大會(huì)
Distributed Cloud
2021年,分布式云成為云計(jì)算領(lǐng)域關(guān)注的熱點(diǎn)。經(jīng)過一年時(shí)間的探索與沉淀,分布式云開始從理論走向?qū)嵺`,諸多云計(jì)算頭部企業(yè)夯實(shí)分布式基礎(chǔ)設(shè)施建設(shè)、優(yōu)化分布式資源調(diào)度、開發(fā)分布式應(yīng)用,為構(gòu)建分布式云打下了堅(jiān)實(shí)的基礎(chǔ)。
12月15日,以“引領(lǐng)分布式云變革 助力灣區(qū)數(shù)字經(jīng)濟(jì)”為主題的全球分布式云大會(huì)在深圳隆重召開,本屆大會(huì)由全球分布式云聯(lián)盟、深圳科技交流服務(wù)中心、深圳市通信學(xué)會(huì)、眾視Tech聯(lián)合主辦。組委會(huì)攜手阿里云、騰訊云、Google Cloud、華為云、螞蟻集團(tuán)、浪潮云、金山云等海內(nèi)外頂尖云計(jì)算團(tuán)隊(duì)和分布式云先鋒企業(yè),為粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)發(fā)展注入分布式云動(dòng)力,更將中國分布式云計(jì)算發(fā)展推上全新高度!
在15日下午舉辦的分布式算力論壇上,Google Cloud 云架構(gòu)師陳子升先生發(fā)表了題為《Google Cloud 應(yīng)用現(xiàn)代化技術(shù)助力分布式計(jì)算》的精彩演講。
容量管理
傳統(tǒng)的應(yīng)用管理相對簡單,作為單體應(yīng)用,架構(gòu)簡單,節(jié)點(diǎn)相對較少;分布式應(yīng)用涉及很多環(huán)節(jié),要精確評估每個(gè)環(huán)節(jié)所需要資源,管理難度大大提升,同時(shí)也要求相應(yīng)適配的網(wǎng)絡(luò)與安全能力。對有明顯應(yīng)用波峰波谷的應(yīng)用很難平衡容量與成本,最理想是依據(jù)波峰來評估容量,但這樣在業(yè)務(wù)處于波谷的時(shí)候就會(huì)造成成本的浪費(fèi)。
最好的容量管理是無須做容量管理,而實(shí)現(xiàn)“無須做容量管理”需要使用全面彈性伸縮。在實(shí)現(xiàn)彈性伸縮方面,Google Cloud的獨(dú)到之處主要有三點(diǎn):
一 計(jì)算:針對計(jì)算類型的資源(虛擬機(jī)、容器等)提供多維度的伸縮閾值,除了CPU、內(nèi)存、網(wǎng)絡(luò)指標(biāo)等指標(biāo),也包括自定義監(jiān)控指標(biāo),比如業(yè)務(wù)維度的指標(biāo)。以上均可成為觸發(fā)彈性伸縮的條件。
二 網(wǎng)絡(luò):Google Cloud 是全球一張網(wǎng),提供全球一個(gè)VPC,各區(qū)域互聯(lián)互通的能力。想象一下傳統(tǒng)環(huán)境,如果要把分布式應(yīng)用部署在全球各個(gè)數(shù)據(jù)中心,各個(gè)數(shù)據(jù)中心可能會(huì)有專門的互聯(lián)網(wǎng)出入口,網(wǎng)絡(luò)和安全能力要依據(jù)每個(gè)數(shù)據(jù)中心進(jìn)行規(guī)劃,相對繁瑣。而Google Cloud的全球網(wǎng)絡(luò)能力,可以讓部署在全球各個(gè)區(qū)域的業(yè)務(wù),只需要一個(gè)負(fù)載均衡,一個(gè)VIP,就可以提供給全球各地客戶端就近接入,并且具備無上限的安全能力。全球互聯(lián)網(wǎng)30%的流量都在谷歌中,有史以來最大規(guī)模的DDOS攻擊——2.54TB,也發(fā)生在谷歌,而谷歌對這次攻擊幾乎無感。
三 底座, 傳統(tǒng)環(huán)境,如果要使用Kubernetes服務(wù),控制、數(shù)據(jù)、運(yùn)維平面等等都需要用戶自己處理。谷歌提供兩種托管Kubenetes服務(wù),第一種是Standard GKE,屬于半托管模式,客戶可以定義節(jié)點(diǎn)、網(wǎng)絡(luò)與安全的配置,Google Cloud負(fù)責(zé)控制與運(yùn)維平面;對于一些不想管理這些節(jié)點(diǎn),甚至不想感覺到這些節(jié)點(diǎn)存在的客戶, Google Cloud也提供Autopilot模式,無需人手干預(yù)的全托管Kubernetes服務(wù),資源彈性伸縮,根據(jù)所占用資源計(jì)費(fèi)。用戶只需使用Kubernetes的接口即可部署應(yīng)用。
多環(huán)境管理
單區(qū)域、單集群上運(yùn)行的分布式應(yīng)用其實(shí)并不是真正意義上的分布式應(yīng)用,真正意義上的分布式應(yīng)用應(yīng)該是跨區(qū)域、跨數(shù)據(jù)中心、跨云的。于是,就引出了多云和混合云環(huán)境如何統(tǒng)一管理,虛擬機(jī)、容器和云服務(wù)如何統(tǒng)一編排等問題。Google Cloud有兩個(gè)思路來解決這些問題,第一個(gè)思路是把所有非容器的資源,如虛擬機(jī)和其他云服務(wù)都抽象成Kubernetes的資源進(jìn)行管理;其次是用Anthos對多環(huán)境的集群進(jìn)行統(tǒng)一納管。
統(tǒng)一納管不單單指為所有集群提供統(tǒng)一視圖,如看到集群上所有節(jié)點(diǎn)的狀態(tài)、應(yīng)用狀態(tài),這只是統(tǒng)一納管的一小部分;真正統(tǒng)一納管的內(nèi)容是配置管理,Kubernetes所有資源都是配置。
傳統(tǒng)的配置管理是命令式運(yùn)維,用kubectl連接不同集群執(zhí)行相應(yīng)的操作,這樣的方式會(huì)帶來一系列的問題,第一個(gè)問題是命令難以重用,在一個(gè)集群下的命令,在另外一個(gè)集群又得執(zhí)行一遍;所運(yùn)行命令也難以審計(jì)和追溯;另外命令式運(yùn)維安全度相對較低,生產(chǎn)環(huán)境中絕大多數(shù)的故障都是人為誤操作,并且故障難以回滾,因?yàn)楹芏鄷r(shí)候無法得知哪條命令導(dǎo)致了集群的故障。谷歌的SRE運(yùn)維理論里有一個(gè)詞來形容這種人工重復(fù)低效操作叫Toll。
谷歌建議用Git配置倉庫思想做運(yùn)維,先把操作定義成配置文件,再把文件存儲(chǔ)到Git倉庫,這些配置會(huì)下發(fā)到所有集群或者特定集群上生效,可以利用Git生態(tài)一系列的組件,比如分支、驗(yàn)證、審查、合并、部署等等,Git倉庫也支持通過已有的配置進(jìn)行編排。
GitOps的優(yōu)勢體現(xiàn)在以下幾個(gè)方面,首先是操作是可審計(jì)的,操作都是配置文件,可以清晰地回溯流程,配合版本管理,可以輕松回滾;另外,由于事務(wù)性,要么配置更新全部執(zhí)行成功,要么回滾;具備自動(dòng)修復(fù)功能,配置了GitOps的環(huán)境,操作者即使用人工命令方式在集群上進(jìn)行操作,GitOps組件會(huì)自動(dòng)把Git配置拉到集群,同步到一致性狀態(tài)。
Google Cloud有提供基于GitOps的統(tǒng)一配置管理服務(wù)—— Anthos Config Manager,幫助用戶輕松實(shí)現(xiàn)多集群配置管理。
微服務(wù)治理
微服務(wù)化會(huì)帶來很多好處,但也會(huì)帶來額外的開銷。傳統(tǒng)應(yīng)用環(huán)境的治理可能用APM去做,但微服務(wù)和容器環(huán)境,容器實(shí)例是暫存的,沒有固定IP的,傳統(tǒng)的APM就無能為力了。實(shí)現(xiàn)微服務(wù)治理的最好的方式是找sidecar幫忙。沒有sidecar的話,微服務(wù)治理需要一系列組件來完成,不但提高了開發(fā)人員的工作量,還有代碼侵入性。借助sidecar的幫忙,可以把微服務(wù)治理相關(guān)工作,卸載到sidecar來完成,實(shí)現(xiàn)非代碼侵入,語言無關(guān)的微服務(wù)治理。所有集群內(nèi)的sidecar,就組成了服務(wù)網(wǎng)格。服務(wù)網(wǎng)格是一個(gè)很好的理念,但目前在企業(yè)生產(chǎn)環(huán)境很少有大規(guī)模應(yīng)用,主要原因是性能所限。
谷歌用Cilium開源技術(shù),基于eBPF內(nèi)核技術(shù),可以在內(nèi)核編程,讓你的應(yīng)用和sidecar之間通訊流量直接在Socket層面完成轉(zhuǎn)發(fā),沒有經(jīng)過額外的內(nèi)核網(wǎng)絡(luò)協(xié)議棧,這樣會(huì)大大降低sidecar所帶來的網(wǎng)絡(luò)開銷。
谷歌提供全托管的服務(wù)網(wǎng)格服務(wù)——Anthos Service Mesh,來幫忙用戶快速實(shí)現(xiàn)微服務(wù)治理。ASM是基于并完全兼容Istio的托管服務(wù)。相對于Istio,它還有額外的優(yōu)勢:
開源的Istio在集群的內(nèi)部安裝控制平面和數(shù)據(jù)平面,對多集群的的服務(wù)治理會(huì)帶來額外的配置工作。谷歌把整個(gè)控制平面獨(dú)立出來做全托管的服務(wù),可以輕松實(shí)現(xiàn)多集群的服務(wù)治理。另外ASM也借助Cilium優(yōu)化sidecar帶來的網(wǎng)絡(luò)損耗;ASM還是基于SRE核心SLO實(shí)現(xiàn)的可見性,可以在技術(shù)上承載SRE理論的落地。
很多企業(yè)對SRE有誤解,覺得運(yùn)維人員可以寫些腳本,或者做一些簡單的編程,就是SRE了。其實(shí)SRE的核心是SLO,SLO讓監(jiān)控面向服務(wù),不是面向?qū)嶓w。ASM可以讓用戶很容易地在界面上定義監(jiān)控服務(wù)水平的指標(biāo)SLI、服務(wù)水平目標(biāo)SLI和持續(xù)的監(jiān)控狀態(tài)計(jì)算錯(cuò)誤預(yù)算。
有些對網(wǎng)絡(luò)延遲苛刻的應(yīng)用,無法接受sidecar帶來的額外網(wǎng)絡(luò)延遲,即使此延遲已被Cilium優(yōu)化。谷歌推薦使用gRPC實(shí)現(xiàn)無代理的Service mesh。gRPC是谷歌開源的RPC框架,直接在協(xié)議層構(gòu)建了 Service Mesh,無需sidecar或代理,沒有額外的網(wǎng)絡(luò)損耗;另外gRPC是基于HTTP/S的,性能比起HTTP1.x優(yōu)異很多;同時(shí)gRPC也是支持標(biāo)準(zhǔn)的xDS的API。
目前的gRPC已全面應(yīng)用在Google Cloud的底層服務(wù)調(diào)用。
支持xDS的API還有一個(gè)好處,可以把Service Mesh的控制平面和數(shù)據(jù)平面解耦,用不同的產(chǎn)品實(shí)現(xiàn)控制平面和數(shù)據(jù)平面的能力。比如說控制平面,可以使用谷歌提供的托管服務(wù)Traffic Director,也可以用開源的方式做;數(shù)據(jù)平面非常靈活,可以是本地環(huán)境或云上環(huán)境,可以是虛擬機(jī)或容器環(huán)境,可以是有代理有sidecar的環(huán)境或無代理的gRPC環(huán)境,可以是計(jì)算的資源,也可以是網(wǎng)絡(luò)的資源;比如 Google Cloud 內(nèi)部和下一代的基于Envoy的負(fù)載均衡。有了對于xDS API的支持,gRPC與sidecar,可以組成一個(gè)跨環(huán)境跨云的 Service Mesh。
解決了微服務(wù)的內(nèi)部問題,陳子升就微服務(wù)要對外服務(wù)的問題進(jìn)行了講解。
微服務(wù)如何對外輸出實(shí)現(xiàn)有效運(yùn)營,Google Cloud 建議可以用 API 市場來做。首先把后臺的服務(wù)抽象成API產(chǎn)品放到API市場上展示。API管理平臺同時(shí)實(shí)現(xiàn)API授權(quán)、安全、API轉(zhuǎn)化、分析、運(yùn)維的功能??蛻艟涂梢酝ㄟ^API平臺提供的服務(wù)目錄去調(diào)用服務(wù)。
Google Cloud提供企業(yè)級的API管理平臺——Apigee。Apigee除了上述功能外,還有三個(gè)特點(diǎn):一 共同協(xié)作,很多企業(yè)可能把API平臺定位成一個(gè)團(tuán)隊(duì)級或者項(xiàng)目級的平臺,這個(gè)定位沒有發(fā)揮API平面的真正作用,陳子升認(rèn)為應(yīng)該定位成企業(yè)級平臺,他舉例說,要做一個(gè)電商平臺,如果在電商平臺上只有一家商店在賣產(chǎn)品,客戶不會(huì)很多的,最好的方式是開放平臺給不同的商家進(jìn)駐,提供不同的商品,這樣電商平臺的客流量才會(huì)多。Apigee就是提供了開發(fā)者門戶,可以讓企業(yè)內(nèi)外部包括合作伙伴,第三方開發(fā)者來開發(fā)與發(fā)布API。
二 陳子升同時(shí)舉例,如果進(jìn)駐電商平臺的流程繁瑣,門檻很高,也不會(huì)有很多商家愿意進(jìn)駐。Apigee提供低代碼開箱即用的方式,通過拖拉拽就可以完成API產(chǎn)品的開發(fā)、迭代和控制能力。
三 業(yè)務(wù)驅(qū)動(dòng)。很多時(shí)候企業(yè)做API市場經(jīng)常有一個(gè)誤區(qū),也就是后臺有什么樣的微服務(wù),就把這些微服務(wù)做成API展示出來,這經(jīng)常導(dǎo)致一個(gè)局面:API平臺上面的API很多,但用的人很少。這里需要思維的轉(zhuǎn)變,從技術(shù)驅(qū)動(dòng)轉(zhuǎn)向業(yè)務(wù)驅(qū)動(dòng)。應(yīng)該是用戶需要什么樣的能力和服務(wù),開發(fā)者把后臺微服務(wù)組裝成相應(yīng)的API產(chǎn)品或者開發(fā)相應(yīng)的API產(chǎn)品,去滿足用戶的需求,用戶的需求也會(huì)反向推動(dòng)服務(wù)的迭代,這樣才有利于API市場的繁榮。
陳子升最后總結(jié)與回顧所介紹的內(nèi)容:企業(yè)要部署分布式應(yīng)用時(shí),可能會(huì)部署在不同的環(huán)境,這涉及到多環(huán)境統(tǒng)一管理的問題,Anthos可以連接不同的區(qū)域、云和環(huán)境,可以屏蔽集群之間的差異性。在此之上需要對不同的集群進(jìn)行配置和策略管理,Anthos Config Manager以GitOps的思想幫忙用戶高效進(jìn)行配置管理;在此底座之上部署微服務(wù)應(yīng)用,會(huì)涉及到微服務(wù)治理問題,Anthos Service Mesh可以幫助客戶更方便地進(jìn)行微服務(wù)治理,同時(shí)解決服務(wù)網(wǎng)格的sidecar導(dǎo)致的性能問題;當(dāng)部署完服務(wù)之后,如果需要將服務(wù)發(fā)布出去給第三方使用,就涉及到服務(wù)運(yùn)營的問題,Apigee API管理平臺就是服務(wù)于此,可以屏蔽對外接口的差異性,幫助客戶做更好的服務(wù)運(yùn)營。