在助力企業(yè)數(shù)字化轉型的共同目標下,越來越多的服務商正走向更加緊密的合作。而面對海量數(shù)據(jù)爆發(fā)式的成長,以往單一的SaaS產品很難直接滿足企業(yè)的業(yè)務需求,在某些場景下,無論是性能、安全還是穩(wěn)定性,都面臨著各種各樣的問題。
日前,擁有多種企業(yè)特性的微盟SaaS工具卻屢次獲得用戶認可,這是怎么做到的?以下將帶來微盟余成真先生的分享實錄:
微盟做為中國領軍企業(yè)云端商業(yè)及營銷解決方案SaaS提供商,現(xiàn)有員工超過1萬人,入駐商戶超過300多萬家,在商業(yè)產品這塊SaaS類云產品,能夠為用戶提供精準營銷服務。
SaaS是一種全新的通過Internet提供軟件服務的模式,主要面向企業(yè)級客戶。微盟業(yè)務特色是營銷數(shù)字化,通過多樣營銷插件,賦能企業(yè)實現(xiàn)數(shù)字化運營,讓商業(yè)變得更智慧。業(yè)務多樣及復雜性,也使得數(shù)據(jù)庫面臨諸多挑戰(zhàn),而微盟很多核心的接口都是毫秒級別的響應,落地到數(shù)據(jù)庫可能就是幾毫秒甚至納秒級別。
穩(wěn)定、高可用也是DBA提供數(shù)據(jù)庫服務基本能力,高可用依賴于云數(shù)據(jù)庫能力,實現(xiàn)了異地多活、雙活的架構,通過對高可用應用廠商調研,包括通過邊緣業(yè)務實際演練,都證明這種高可用架構是非常成功的。
其次是微盟對數(shù)據(jù)安全追求,數(shù)據(jù)安全是微盟極度重視的重點項目之一,我們嚴格要求對于人員安全、數(shù)據(jù)庫安全進行長期治理。比如說微盟數(shù)據(jù)庫分類分級、線上數(shù)據(jù)查詢精確授權、故障數(shù)據(jù)庫備份場景演練、運維操作風險控制等等,都是屬于微盟治理項目的內容。
最后一塊海量數(shù)據(jù)庫運維帶來的挑戰(zhàn),因為微盟涉及到數(shù)據(jù)庫實例數(shù)量多、類型多,業(yè)務線多,管理好這些原數(shù)據(jù)是DBA做好工作的先決條件,也是做好精細化運維的基礎數(shù)據(jù)。有了這些數(shù)據(jù),可以將一些數(shù)據(jù)庫使用問題、巡檢報告的風險分析,及時傳導給業(yè)務域,去進行數(shù)據(jù)治理,降低故障,從而打磨出一個穩(wěn)定、高可用產品。
比如說騰訊云MySQL的優(yōu)化,主要通過硬件選型、參數(shù)、服務器進行優(yōu)化,以此達到選型優(yōu)化目的。同時還有業(yè)務SQL優(yōu)化,前面講到微盟核心接口都是毫秒級別響應,所以對于業(yè)務SQL是要長期治理,微盟也形成了一套自己的SQL優(yōu)化跟進機制。擴展:并不是說完成所有優(yōu)化,業(yè)務就滿足了,高QPS讀也是需解決的實際問題,用云原生數(shù)據(jù)庫TDSQL-C來解決讀能力擴展問題。眾所周知,社區(qū)版MySQL對數(shù)據(jù)延遲不可控,而微盟現(xiàn)在用云原生數(shù)據(jù)庫TDSQL-C解決了延遲不可控的問題。
因為微盟使用了擴展的只讀能力,使業(yè)務應用只讀的場景變得更多,同時提升了資源使用率,這也是一種降本的表現(xiàn),云原生數(shù)據(jù)庫TDSQL-C在極速擴縮容、海量存儲應用上是非常便捷的。
微盟還使用一款產品是TDSQL-H,這種產品可以解決某些業(yè)務AP類查詢資源使用高的痛點,通過數(shù)據(jù)傳輸工具DTS或CDC,將TP與AP場景進行無縫結合,實現(xiàn)全場景使用閉環(huán)。
數(shù)據(jù)庫性能優(yōu)化目標總結起來是三點:降本、增效、達標。通過不斷SQL優(yōu)化,不僅使數(shù)據(jù)庫服務本身更加穩(wěn)定,也降低資源使用率,能夠精確資源配置,達到降配降本目的。在增效這塊,微盟對實例進行打標簽,根據(jù)實例標簽屬性:重要實例、非重要實例、核心實例、高流量實例等等,為實例擴縮容提供一些依據(jù),也為運維資源分配提供重要理論數(shù)據(jù),實現(xiàn)重點資源重點運維,達到運維增效的目的。
前面講到優(yōu)化,可能帶來最直觀效果就是告警數(shù)量的減少,告警數(shù)量減少意味數(shù)據(jù)庫服務的達標。在優(yōu)化過程中,微盟也衍生出很多治理方案及項目,比如說做慢SQL的治理,包括去定位DBA跟進人等。
監(jiān)控和告警治理方面,監(jiān)控是依賴于騰訊云API接口做本地數(shù)據(jù)落地,監(jiān)控治理可對業(yè)務域監(jiān)控數(shù)據(jù)輸出,微盟基于需求監(jiān)控數(shù)據(jù)可以動態(tài)形成各種各樣報表,比如說實例可以基于監(jiān)控數(shù)據(jù)進行全資源風險巡檢,可以動態(tài)多維度查看本地監(jiān)控數(shù)據(jù),去看TOP級QPS、CPU應用實例,達到掌控優(yōu)化整個集群目的,同時對外我們也可以提供數(shù)據(jù)監(jiān)控接口的能力,還能監(jiān)測云監(jiān)控本身服務的高可用。
在告警治理這塊,微盟將云上告警落到本地,這樣可以對業(yè)務域進行定向維度告警,同時也可以做基于資源、時間維度、業(yè)務維度、告警指標維度的全方向實例分析,最終目的是為服務穩(wěn)定做保障。這種告警也打通至內部監(jiān)控系統(tǒng),比如和cat去做耦合,形成了全鏈路業(yè)務告警聯(lián)動,可以通過DBA視角去審視業(yè)務影響情況。
SRE運維解決方案是建立一套專業(yè)、可用的數(shù)據(jù)庫管理平臺,這也是各大公司已經完成或者正在做的產品。而微盟這套平臺解決的是實例全生命周期管理,還有工單自動化能力,也能提供運維人員對數(shù)據(jù)庫的運營能力。
高可用這一塊,依賴于云數(shù)據(jù)庫能力,云數(shù)據(jù)庫消除了自建數(shù)據(jù)庫高可用組件的運維壓力。在多可用區(qū)建設方面,微盟的DBA角色轉換為需求提出者、方案驗證者、可用產品的使用者。通過云數(shù)據(jù)庫高可用架構原理推演及線上邊緣業(yè)務真實故障演練,也證明了多可用區(qū)的故障轉移能力,同時微盟也在計劃進行周期性全實例多活可用性演練。
數(shù)據(jù)安全是微盟重點關注方向,微盟解決方案是通過定義規(guī)范化流程來保證安全,這里列舉4個面來闡述微盟規(guī)范流程建設:操作SOP流程、應急預案流程、報告總結規(guī)范、權限收斂規(guī)范。主要是通過抽象DBA日常運維工作事項,來進行流程化、標準化定義。從而使得每種運維操作具有清晰操作步驟、驗收流程、回滾方案,能夠極大的降低運維人員操作風險、使各方能監(jiān)控執(zhí)行的各種狀態(tài)、能預知操作的風險點,達到保證數(shù)據(jù)操作安全的目的。
運維安全有兩個點做闡述,一是系統(tǒng)風控,二是制度風控。比如說授權機制、權限分類級別、權限控制、賬號權限回收、操作流程風控等等,微盟也有一套危機應急預案,在數(shù)據(jù)的恢復、還原方面;微盟在制度上面也做了很多工作,比如面試流程、人員離職流程,包括在平時工作中也會跟進運維或者DBA人員工作狀態(tài),也定期向所有運維人員去做制度法律的宣講。
最后,聊一下對于云數(shù)據(jù)庫使用的未來暢想。關于TDSQL產品前面介紹了很多,我這里也列了兩點,第一點就是并行查詢,據(jù)我所知,有廠商實現(xiàn)了并且部署在線上使用,并行查詢理論可以提高百倍查詢速度,這對用戶來講吸引力非常大,相信騰訊云廠商也是有能力把這塊給到我們的企業(yè)用戶。
另外一塊就是HTAP場景,因為SaaS行業(yè)的特殊性,對于AP類查詢功能會越來越多,查詢時效也會越來越高,而對于AP型數(shù)據(jù)庫的要求,則是希望TDSQL這一系列產品最終實現(xiàn)一體化,讓用戶能夠通過一個簡單的配置或者一個簡單的購買就能實現(xiàn)HTAP的能力。