騰訊云:618數據洪峰來了 一鍵下單背后都有哪些技術支撐?

來源: 騰訊云數據庫
作者:騰訊云數據庫
時間:2021-06-22
17317
騰訊云和數據庫服務是背后默默守護的“無名英雄”。電商訂單、支付、物流等核心鏈路,都是以數據庫為基礎。一旦數據庫成為瓶頸、或任何細微的疏忽,整個618大促將會變成一個大型“災難現場”。

1624327325(1).png

618大促來臨,在零點的時候,你打開購物車、點點點、清空,整個過程一氣呵成。但背后,成千上萬的數據在馬不停蹄、加速流轉,以保障消費體驗流暢有序。

騰訊云和數據庫服務是背后默默守護的“無名英雄”。電商訂單、支付、物流等核心鏈路,都是以數據庫為基礎。一旦數據庫成為瓶頸、或任何細微的疏忽,整個618大促將會變成一個大型“災難現場”。

一場電商大促,涉及到的數據量有多大?

以一個消費者的購買過程為例,一次下單行為,對于后端數據庫就有多次讀寫調用;如果是秒殺場景就會產生“熱點更新”的問題,更是對數據庫內核優(yōu)化能力的一種“洗禮”;跨店鋪結算、資金金額,涉及到存儲核心交易數據的數據庫,每一個字符都代表著真金白銀,下單失敗要進行回滾,更是對后端系統(tǒng)多個組件的考驗;還有物流數據庫等都在支撐著整個電商交易環(huán)節(jié)…

這還只是一個用戶的行為,618當天,有上億人都在重復這個動作,想象一下這個數據量級:一個下單動作會涉及幾十條、甚至上百條的數據庫讀寫操作,如果保守估計按1億人參與大促來計算,618數據庫涉及上百億次的查詢或讀寫要求。

騰訊云服務了京東、唯品會、蘑菇街、每日優(yōu)鮮、貝店、什么值得買等主流電商客戶,是國內服務電商客戶數量最多、范圍最廣的云廠商。一到大促節(jié)點,數據量級就會幾何級增長。

據不完全統(tǒng)計,今年騰訊云數據庫為電商客戶承載了十億級別的QPS(每秒查詢數)、PB級別的數據存儲量,整個大促期間數據庫平穩(wěn)有序運行。

一、預先評估、讀寫分離、一鍵擴容等系統(tǒng)能力為618保駕護航

每次大促前至少一個月,騰訊云數據庫團隊都要和電商客戶一起評估資源:業(yè)務量會增長多少,同比、環(huán)比是否有增長預期。如果預計流量會翻3-5倍,團隊就會和客戶一起去考量現有數據庫整體性能是否能滿足資源,以及需要做多少擴容準備。

這個時間周期有可能會拉長到提前2個月,擴容這一關鍵步驟確定后,準備工作即告一段落。

騰訊云數據庫可支持秒級彈性擴容。以騰訊云數據庫Redis為例,Redis通過提供大規(guī)模的集群產品,為電商客戶提供穩(wěn)定的高并發(fā)低延遲的緩存服務,操作起來也極為簡便,運維人員僅需在控制臺點擊一個按鈕,即可操作完成數倍業(yè)務規(guī)格增長的彈性擴展。

在本輪618之前,Redis數據庫曾支持過騰訊會議高并發(fā)的考驗:在八天時間內騰訊會議完成了100萬核云服務器擴展的同時,Redis集群僅在半小時以內就高效完成了數十倍規(guī)模的擴容,單集群的擴容流程后臺處理時間不超過30分鐘,同時保持了100%的系統(tǒng)可用性,在整個資源擴展過程中,騰訊會議服務始終保持著大規(guī)模的在線運行,海量用戶無感知,依然能夠高清流暢無卡頓的進行會議。

640 (3).png

騰訊云Redis是國內唯一一款具備無損擴容能力的Redis數據庫產品。堪稱一鍵“加油”。

618當天,最緊張的時刻就要來臨了。

現場調度、后端運維、研發(fā)團隊等都會全力保駕護航。數據庫團隊也會專人去客戶現場,責任到人、排好班,后端研發(fā)運維團隊也會做到萬無一失,24小時前所有人員就位,預檢開始。

零點時分峰值飆升,凌晨2點、早上8點、10點……數據峰值呈現出波形趨勢。騰訊云數據庫團隊會實時觀測數據和大盤。

一些細節(jié)很能說明問題,比如大盤CPU,實時CPU會緩慢爬升,10%、20%…隨著搶購進入高潮,實時CPU上升接近50%時,運維人員就需要發(fā)出預警。超過50%,團隊就要和客戶一起想辦法,采取擴容等策略,爭取把問題消除在萌芽狀態(tài)。

另外一個核心指標是線程數,這是衡量一個數據庫運轉是否健康的重要指標,即有多少個線程在同步運轉。一旦發(fā)現超出正常運行的線程數,立即排查處理。

在高峰期,云原生數據庫TDSQL-C(原CynosDB)的“日志即數據庫”的計算與存儲分離架構將系統(tǒng)可能出現的問題消弭于無形,計算層和存儲層可以分別獨立彈性擴展,支持秒級升降配和故障恢復。

TDSQL-C完全兼容MySQL以及PostgreSQL等開源協(xié)議的產品特性,使得企業(yè)業(yè)務“零”改造就可以平滑地遷移到TDSQL-C,幫助用戶業(yè)務快速上云:TDSQL-C擁有130萬QPS的高性能和128TB海量存儲能夠充分滿足企業(yè)長期的業(yè)務需求。

另外TDSQL-C支持Serverless形態(tài),是國內首款計算和存儲全Serverless架構的云原生MySQL數據庫,讓用戶像使用水、電、煤一樣使用數據庫。

二、自動化運維已成為電商大促常態(tài)

歷經數十年發(fā)展,數據庫運維已經度過石器時代、工具時代、專家時代,隨著工具的日趨成熟,低價值的工作量得以解放,DBA價值不斷提升,數據庫運維進入了智能時代。

為了最大程度降低618大促期間的成本及消耗,騰訊云數據庫智能運維管家DBbrain能夠幫客戶做巡檢、運維和優(yōu)化的工作。

DBbrain是騰訊云結合前沿人工智能技術推出的一款數據庫智能診斷和優(yōu)化產品。DBbrain支持多款SQL、NoSQL、NewSQL數據庫類型,可以為用戶提供7*24小時數據庫異常發(fā)現、診斷分析等數據庫自治能力,并通過智能化告警服務及時觸達用戶;同時提供專家建議和一鍵優(yōu)化功能,利用AI技術為用戶提供在線自動優(yōu)化數據庫性能的服務,針對業(yè)務訪問特性定制化生成最優(yōu)配置,大幅提高數據庫運維效率。

除了7*24小時的實時診斷優(yōu)化,DBbrain還具有安全威脅識別、混合云管理數據庫和掌上數據庫運維等功能。依托騰訊云專業(yè)的深度學習算法模型和海量樣本訓練環(huán)境,它可以應對變化多端的攻擊場景,對各類變體攻擊以及非常見威脅操作實現監(jiān)控和告警。比如,訪問量超標,或者系統(tǒng)出現故障。

同時DBbrain能夠適用于云上、云下數據庫場景,不僅為騰訊云數據庫實例提供診斷優(yōu)化服務,也支持用戶自建的數據庫和其他云部署的數據庫實例,為用戶打造數據庫混合云管理的場景提供助力。另外,騰訊云還聯(lián)合微信團隊將DBbrain的監(jiān)控、異常診斷、優(yōu)化建議以及數據庫管理功能集中在了移動端,運維通過手機便可直接完成。極大地降低了電商客戶的運維成本。

立即登錄,閱讀全文
版權說明:
本文內容來自于騰訊云數據庫,本站不擁有所有權,不承擔相關法律責任。文章內容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權,請聯(lián)系管理員(zzx@kchuhai.com)刪除!
個人VIP