五大關鍵能力,華為云云原生數據倉庫GaussDB(DWS)深度技術解讀

來源: donews
作者:華為云
時間:2021-01-02
16470
“云原生”在2020年成為備受矚目的熱詞,云原生在確保企業(yè)數字化轉型中資源快速供給、按需使用的同時,支持敏捷的應用開發(fā)、穩(wěn)定的交付運維,加速企業(yè)的敏捷創(chuàng)新,是企業(yè)數字化轉型、智能化升級的必經之路。

【天極網IT新聞頻道】“云原生”在2020年成為備受矚目的熱詞,云原生在確保企業(yè)數字化轉型中資源快速供給、按需使用的同時,支持敏捷的應用開發(fā)、穩(wěn)定的交付運維,加速企業(yè)的敏捷創(chuàng)新,是企業(yè)數字化轉型、智能化升級的必經之路。

12月30日,在云原生2.0技術峰會上,GaussDB(DWS)云原生數據倉庫架構師為大家深度解讀了GaussDB(DWS)深度技術。

img_pic_1609323771_0.jpeg

關鍵能力1-融:云原生架構,支持跨源數據融合分析、冷熱數據分級存儲

融合分析能力是云原生數據倉庫GaussDB(DWS)核心亮點之一。GaussDB(DWS)采用用一套SQL引擎,支持Oracle、MySQL、HDFS等多源數據融合分析,并通過算子下推、加速集群等技術對分析性能進行了大幅優(yōu)化,在數據免搬遷的前提下,實現了跨源數據免搬遷、高效分析。

GaussDB(DWS)云原生數據倉庫支持冷熱數據多溫存儲,熱數據存儲于數倉內部,以獲得良好的查詢分析性能,冷數據可分級存儲到更低成本的OBS中,不僅降低存儲成本,并且在OBS內,通過合法鑒權,數據能夠共享開放,供其他引擎處理分析,GaussDB(DWS)當前已經支持表內不同分區(qū)間的冷熱數據存儲,未來還將支持更細粒度、更加智能的冷熱數據管理。

關鍵能力2-快:聚合云海量算力,軟硬垂直優(yōu)化,效率最優(yōu)

第二大特點,快。GaussDB(DWS)主要通過多層級全并行架構來實現。

并行的第一個層級,是集群內物理節(jié)點間的并行,CN將計劃動態(tài)分布到多個服務器,通過分布式執(zhí)行框架,將查詢計劃在集群內多臺物理節(jié)點并行執(zhí)行;

第二個層級,是算子級并行,在每個服務器內,查詢算子能夠利用一個節(jié)點內多個CPU核心進行并行計算;

第三個層級,是在一個CPU核心的指令序列中支持SIMD指令,結合我們的向量化引擎,實現一個指令同時操作多條數據。

同時,我們還集成了現代編譯器技術,利用LLVM框架,運行時動態(tài)生成執(zhí)行代碼,減少無關指令生成;數據量越大,可獲得的性能提升效果越好。

正是因為有這樣一個全并行計算引擎,我們可以將系統(tǒng)資源最大化利用,提供極致的分析性能。

隨著金融風控,以及IoT場景對數據實時處理分析的訴求,我們正式發(fā)布了GaussDB(DWS)實時數倉版本,快上加快,將快發(fā)揮到極致。

實時數倉的快主要體現在兩個方面。首先是入庫速度快,與傳統(tǒng)數倉不同,數據的加載不再是T+1的大批量加載模式,而是更加實時的高并發(fā)小批量模式。DWS實時數倉時序數據單機入庫性能達10w/s,流數據達60w/s,并能夠線性擴展。其次是計算分析快,支持基于流式數據的持續(xù)計算查詢,預置了豐富的時序和流處理函數,通過SQL即可完成復雜流式計算,可實現億級數據,秒級聚合。

正所謂一切皆SQL,經歷了幾十年的發(fā)展,SQL依然是最簡潔高效的數據開發(fā)語言,能極大的簡化應用開發(fā)。以Druid監(jiān)控的一個場景為例,原先1900行的腳本,在GaussDB(DWS)實時數倉中采用SQL語句,僅用150行代碼就能實現同樣的功能,開發(fā)效率提升10+倍。

關鍵能力3-大:云分布式、按需擴展,支持10PB級數據,大而有序

第三個特點,大。我們在Shared-Nothing全分布式架構下,不僅實現了容量線性擴展,在數據加載、數據分析性能上同樣實現了線性擴展,從小集群逐步擴展到大集群規(guī)模過程中,隨著節(jié)點數增加,線性擴展比可以高達0.9。

從技術上看,大集群需要攻克通信風暴、故障容錯和數據備份恢復一致性三大難題。我們通過獨創(chuàng)的Multi-Streams多流通信技術,支持集群內百億級的通信連接,突破了大規(guī)模通信的技術瓶頸。在高可用方面,大規(guī)模集群下硬件故障成為常態(tài),我們積累了多年,做了大量硬件故障感知及容錯處理的工作,來保證大規(guī)模集群下的集群自愈和業(yè)務可用。在備份恢復方面,我們不僅通過多層級并行實現了線性擴展,還做到了完全在線的全局強一致物理備份,甚至支持表級別的細粒度恢復,競爭力達到了業(yè)界領先。

GaussDB(DWS)現網運行的PB級數據量以上的大集群已經有10+個,最大商用單集群規(guī)模達到240節(jié)點。在產品能力上,GaussDB(DWS)可擴展至2048節(jié)點,并且該規(guī)模在12月已通過信通院的權威評測,樹立了業(yè)界新標桿。另外,我們還實現了邏輯集群特性,一套物理集群可針對不同業(yè)務劃分多個邏輯集群,數據相互隔離,支持跨邏輯集群的計算資源調動。通過邏輯集群,可以進一步擴展集群的規(guī)模。

關鍵能力4-穩(wěn):高可用設計,支持跨AZ容災,數據無憂、永遠在線

第四大特點,穩(wěn)。首先,產品所有內部組件CN、DN、GTM、CM等采用多活或主備設計,通過集群管理進行故障檢測和切換。其次,在硬件層面,除了最基本的宕機、斷網的直接故障外,GaussDB(DWS)還針對夯死、慢節(jié)點、亞健康等僵而不死的復雜場景,做了大量的建模和針對性優(yōu)化,能夠實現故障的準確探測和自愈。

在數據可靠性方面,對于數倉而言,數據存一份有單點故障問題,存三份又太浪費資源,一般來講數據一主一備是個相對合理的選擇,但在故障造成網絡分區(qū)的場景下,很容易出現雙主“腦裂”問題,造成數據不一致。GaussDB(DWS)獨創(chuàng)的“主-備-從”技術,引入“主”、“備”、“從”三種角色。集群正常時數據僅在主備間進行同步,發(fā)生單點故障時數據向“從”同步,從而保證任何狀況下都有兩副本的數據冗余。在網絡分區(qū)等異常場景下,一旦主備產生數據分叉,從備又可以承擔仲裁者的角色,通過日志比對找到持有正確數據的節(jié)點繼續(xù)提供服務。從而既完美解決了一主一備的腦裂問題,又能夠僅用兩副本空間代價實現接近三副本的可靠性。

對于可靠性要求更高的客戶,我們還提供了雙集群容災能力,通過跨AZ、跨Region的物理復制,實現異構集群容災。

時間有限,我們本次只粗略介紹了GaussDB(DWS)高可用技術的一小部分,通過多年的技術積累,我們基本做到了“數據無憂、永遠在線”的目標。

關鍵能力5-易:快速遷移傳統(tǒng)數倉,助力企業(yè)輕松上云

第五個特點,易。利用GaussDB(DWS)的遷移工具,用戶能夠非常容易的將數據從線下的Teradata、Oracle等傳統(tǒng)數倉快速搬遷上云。

遷移主要分為應用遷移和數據遷移兩部分。

應用遷移是指由于線下傳統(tǒng)數據倉庫的語法及功能不同,導致業(yè)務腳本、存儲過程等需要改造適配,為此,GaussDB(DWS)把深耕市場多年、成功遷移數十套Teradata和Oracle數倉的成功經驗,開發(fā)為一套完整的語法遷移工具,能夠支持對數據類型、SQL語法、DSQL腳本、存儲過程等語法的自動化轉換,對Teradata的常用語法自動化轉換率超過90%,對Oracle超過60%。

對于動輒幾十TB、數百TB的海量數據而言,數據遷移速度極大程度影響業(yè)務停機的時間,這對網絡、入庫能力和遷移工具的效率都提出了很高的要求,以我們去年的某次數據搬遷為例,1PB的數據僅用11小時即完成傳輸,加上準備工作和數據校驗的時間,端到端也僅用時17小時,搬遷速率91TB/小時,并且做到數據0丟失。

GaussDB(DWS)已經過近10年的技術沉淀,服務于全球1000+客戶,廣泛應用于金融、政府、運營商、交通、物流、互聯(lián)網等領域。

篇幅有限,本次簡單解讀GaussDB(DWS)的幾個關鍵能力,了解更多內容請進入華為云官網。

https://www.huaweicloud.com/product/dws.html

立即登錄,閱讀全文
版權說明:
本文內容來自于donews,本站不擁有所有權,不承擔相關法律責任。文章內容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權,請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質服務商推薦
更多
掃碼登錄
打開掃一掃, 關注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
小程序
快出海小程序
公眾號
快出海公眾號
商務合作
商務合作
投稿采訪
投稿采訪
出海管家
出海管家