前言
TKEx-CSIG是基于騰訊公有云TKE和EKS容器服務開發(fā)的內部上云容器服務平臺,為解決公司內部容器上云提供云原生平臺,以兼容云原生、適配自研業(yè)務、開源協(xié)同為最大特點。
業(yè)務容器上云過程中,會遇到一些問題,有的需要業(yè)務進行容器化改造,有的需要平臺賦能。平臺賦能的部分,有一類問題是CVM場景下已經有解決方案的,而因運維方式不同在Kubernetes平臺上不兼容的,比如Pod預授權的問題。我們希望用云原生的方式解決這一類問題并提供平臺化的能力,讓每一位用戶都能夠在平臺上便捷的部署和管理自己的業(yè)務。
背景
新部署業(yè)務或者擴容,如何對新設備進行預授權?相信大家對這個問題并不陌生,基于安全考慮,公司內部往往重要組件、存儲都會對訪問請求進行來源控制,常見的如CDB的IP訪問授權,OIDB、VASKEY命令字的模塊授權等。它們或者有自己的授權WEB可以讓用戶提單申請,或者提供授權API可以讓運維平臺調用。而路由系統(tǒng)往往在發(fā)現(xiàn)注冊時需要準確獲取IP設備的地域信息以提供就近訪問的能力,這就需要預注冊CMDB。
在以前使用CVM/TVM部署業(yè)務時,這個問題可以較容易的處理,因為我們是預先拿到了一臺虛擬機,已經分配好了IP注冊好了CMDB,業(yè)務要做的就是用這個IP去提單授權,部署業(yè)務程序,在一切完備后加上路由上線,這個過程是可以用運維平臺的流水線能力做成自動化。
區(qū)別于VM的拿到可用設備后的步驟型過程化部署,Kubernetes管理的是Pod從生產、IP分配、業(yè)務容器啟動、路由維護的整個生命周期,由多個系統(tǒng)Controller的Control Loop做自動化的管理,基于鏡像的部署提供了業(yè)務實例的伸縮一致性保障,Pod的銷毀重建變成常態(tài),IP也并非能固定下來。
業(yè)務往往面對多種預授權的需要,授權均值時間從秒級到幾分鐘不等,授權API大多并沒有設計為承載高QPS,有一定的復雜性。我們需要能找到一種方法,在Pod IP分配后,業(yè)務容器起來前處理授權,阻塞住并保障成功后再進行后續(xù)過程,并且控制重建過程對授權API的壓力。
經過設計與迭代優(yōu)化,TKEx-CSIG平臺提供給了業(yè)務易用的產品能力化的授權能力,方便應對這類Pod預授權的問題。
架構和能力解析
架構
上圖所示是授權系統(tǒng)的架構,核心思路是使用init Container先于業(yè)務容器執(zhí)行的特性,實現(xiàn)在業(yè)務Pod啟動前進行復雜的邏輯預處理。官方對init Container的定義如下:
This page provides an overview of init containers:specialized containers that run before app containers in a Pod.Init containers can contain utilities or setup scripts not present in an app image
如果是小規(guī)?;騿蝹€業(yè)務的解決方案,我們是可以做的很簡單,在業(yè)務Worklooad yaml中注入init Container,調用需要的授權API實現(xiàn)即可,而要做成平臺產品化的能力,還需要考慮以下幾點:
·易用與可維護:需要充分考慮業(yè)務使用上的效率和可管理性,將權限作為一項資源由平臺記錄管理,減小變更對業(yè)務的侵入性影響。
·限頻與自愈:權限API往往并沒有對高QPS的設計,需要限制調用保護下游。
·權限收斂:安全性,Pod的銷毀重建可能導致IP變化,考慮主動回收已經過期的權限
授權過程產品能力化
業(yè)務僅需在平臺Web控制臺上登記需要的權限資源,配置權限組,關聯(lián)權限組到Workload,平臺自動進行init Container的配置注入,通過ENV傳遞授權配置索引和相關信息,在Pod創(chuàng)建時進行授權過程。授權過程涉及的幾個組件功能設計如下:
·init-action-client init Container,僅作一個觸發(fā)裝置,僅做一件事,就是發(fā)起HTTP調用請求,保持不可變,這樣當功能迭代時不必修改業(yè)務的yaml,主邏輯后移處理
·init-action-server deployment部署可橫向擴展,執(zhí)行預處理邏輯,預注冊CMDB等操作,并發(fā)起流水線調用,啟動權限的申請過程并輪詢查詢,將過程信息關聯(lián)Pod暴露出來方便業(yè)務自查和管理員定位問題。后文提到的退避重試和斷路器邏輯也在這里實現(xiàn)。
·PermissionCenter平臺管控組件,位于集群外,負責權限資源的存儲和實際申請。包含一個權限資源中心,存儲業(yè)務登記的權限詳情參數(shù)方便復用,提供權限Set組管理,簡化授權過程中的參數(shù)傳遞;使用生產者/消費者模式,基于Pipline實現(xiàn)授權API的調用和結果查詢。
斷路器和退避重試機制
可能導致授權過程的異常狀況不少,例如權限參數(shù)錯誤的配置,授權API服務質量下降或不可用,甚至是網絡原因導致的接口錯誤、超時等。授權API往往也并沒有設計支持高QPS,我們采用超時重試,加斷路器和指數(shù)退避重試去做一個容錯性。
·超時重試:體現(xiàn)在接口調用和異步任務的超時設置與重試機制,應對瞬時故障,init-action-client容器非正常退出也會進行重建,每次創(chuàng)建就是新一輪的重試。
·斷路器:使用一個Configmap專門記錄集群里Pod權限申請的失敗次數(shù),3次即斷路不給申請。并提供一個重置能力,暴露給前端,讓用戶和管理員可以便捷進行重試。
·指數(shù)退避:斷路器模式可以阻斷用戶配置錯誤這類永遠也不可能授權成功的案例,但是無法應對長時間的瞬時故障。比如裁撤期,授權API后端可能會有一段時間的拒絕服務,10分鐘到幾小時,此時會有大量Pod授權命中斷路器規(guī)則無法繼續(xù)授權,人為處理時效性差也繁瑣。我們?yōu)槊總€Pod添加了一個帶抖動的指數(shù)退避器并記錄最近的失敗時間戳,能夠在一段時間后允許嘗試一次,如果成功就重置對指定Pod的退避,如若不成功更新時間戳重新計時,參數(shù)如下:
bk := &PodBreaker{
NamespacePod: namespacePod,
LastRequestFailTime: time.Now(),
Backoff: wait.Backoff{
Duration: 2 * time.Minute,
Factor: 2.0,
Jitter: 1.0,
Steps: 5,
Cap: 1 * time.Hour,
},
}
Finalizer收斂權限
權限的收斂問題往往被忽略,但是也是安全需要考慮的,Pod的銷毀重建可能是常態(tài),IP指不準也動態(tài)變化,長時間可能產生大量垃圾權限,或者已經授權過的IP分配到別的業(yè)務Pod,產生安全風險。我們做了一個Finalizer控制器來在Pod銷毀前進行權限回收,回收動作是冪等性的,而且是盡力而為的,因為回收的能力也依賴于權限方是否具備回收能力,我們對新對接的權限都會考慮這一點,比如騰訊云MySQL的IP自動授權。
為了減少打Finalizer的動作,盡可能不影響非授權關心的Pod,我們只在Pod進行了變更事件時識別有授權init Container的Pod,Patch上Finalizer標記,在這些Pod縮容銷毀時進行權限的回收并刪除Finalizer,隨后GC會刪除這個Pod。
kind: Pod
metadata:
annotations:
~
creationTimestamp: "2020-11-13T09:16:52Z"
finalizers:
- stke.io/podpermission-protection
總結
本文解決的是業(yè)務使用容器平臺時,在業(yè)務進程啟動前的預處理如自動化授權的一類問題。使用init Container實現(xiàn)業(yè)務容器啟動前的預處理,并將授權特性產品能力化讓業(yè)務能較為方便的管理和申請權限資源,斷路器和退避重試機制提供容錯性,使用Finalizer提供一個回收的能力防止權限擴散。
參考資料
[1]Init Containers:https://kubernetes.io/docs/concepts/workloads/pods/init-containers/
[2][譯]重試、超時和退避:https://www.tuicool.com/articles/7vIF7jR
[3]Using Finalizers:https://book.kubebuilder.io/reference/using-finalizers.html