近日,在2021ACM SIGMOD國際學(xué)術(shù)會議技術(shù)分論壇,華為云分享了新一代自研分布式數(shù)據(jù)庫GaussDB的發(fā)展和使用現(xiàn)狀,介紹了其5大創(chuàng)新技術(shù),并解讀了華為云GaussDB最新研究成果論文。
2021年,華為云GaussDB研究論文《Learned Cardinality Estimation for Similarity Queries》入選SIGMOD,該論文提出使用DNN進(jìn)行基數(shù)預(yù)測,為了解決DNN訓(xùn)練問題,提出了極具創(chuàng)新的模型分割和數(shù)據(jù)分割解決方法,同時(shí)在此基礎(chǔ)上提出了使用該方法進(jìn)行連接操作結(jié)果集預(yù)測。該方法在BMS、GloVe300、ImageNetde等數(shù)據(jù)集上取得了很好的效果。
華為從2007年開始進(jìn)行數(shù)據(jù)庫內(nèi)核方面的開發(fā),于2011年啟動(dòng)分布式數(shù)據(jù)庫內(nèi)核研發(fā),2014年發(fā)布商用版本的OLAP分布式數(shù)據(jù)庫,2017年發(fā)布商用版本的OLTP分布式數(shù)據(jù)庫,2020年發(fā)布基于云服務(wù)的GaussDB分布式數(shù)據(jù)庫。歷經(jīng)10+年千錘百煉,華為云GaussDB當(dāng)前廣泛應(yīng)用于金融、政企以及大企業(yè)領(lǐng)域,中國頭部的六家銀行中有四家選擇了GaussDB分布式數(shù)據(jù)庫。在全國范圍內(nèi)目前已經(jīng)有1000+企業(yè)級客戶廣泛應(yīng)用華為自研分布式數(shù)據(jù)庫GaussDB。在華為內(nèi)部,終端云服務(wù)、流程IT等業(yè)務(wù)已經(jīng)大量使用華為自研分布式數(shù)據(jù)庫GaussDB。
基于云化和企業(yè)2C業(yè)務(wù)的快速發(fā)展,華為云將GaussDB分布式數(shù)據(jù)庫的競爭力定義為五個(gè)維度,即高性能、高可用、混合負(fù)載、高安全以及易運(yùn)維能力,打造了極具競爭力的能力優(yōu)勢。
高性能:華為云GaussDB在充分利用硬件能力基礎(chǔ)上,如鯤鵬處理的多線程、原子指令、智能網(wǎng)卡的計(jì)算下推、RDMA的短時(shí)延高帶寬、SCM的字節(jié)尋址持久化能力等,在軟件技術(shù)領(lǐng)域通過動(dòng)態(tài)編譯、向量化引擎、SQL By Pass等能力,提供基于鯤鵬2路服務(wù)器150萬tpmC,鯤鵬4路服務(wù)器230萬tpmC,32節(jié)點(diǎn)全局強(qiáng)一致的1500萬tpmC(基于SQL,非存儲過程)能力。
高可用:華為云GaussDB提供AZ內(nèi)、跨AZ以及跨Region等各級的高可用能力。在單AZ內(nèi),基于無單點(diǎn)故障的設(shè)計(jì),提供RPO=0,RTO < 10秒的高可用能力。在跨AZ場景下,提供同城跨AZ能力以及兩地三中心能力,分別提供RPO=0,RTO < 60秒以及RPO < 10秒,RTO分鐘級能力。對于有超過2000公里跨Region的需求場景,提供基于全球時(shí)鐘的全球分布式能力,全局提供強(qiáng)一致性及五個(gè)九(99.999%)的可用性。
混合負(fù)載:對于企業(yè)級數(shù)據(jù)庫來說,混合負(fù)載是不可或缺的能力。第一,在實(shí)際系統(tǒng)中,很難將客戶的實(shí)際業(yè)務(wù)負(fù)載區(qū)分為純TP負(fù)載或者純AP負(fù)載,例如我們在某銀行中碰到的業(yè)務(wù)基本都是這個(gè)狀況;第二,業(yè)界領(lǐng)先的主流商業(yè)數(shù)據(jù)庫都具備混合負(fù)載能力。在華為云GaussDB分布式數(shù)據(jù)庫中,我們通過全并行架構(gòu)以及分布式優(yōu)化器能力,可以很好地支持復(fù)雜查詢能力,通過輕量級全局一致性事務(wù)協(xié)議(也叫GTM Lite)使得系統(tǒng)很好地支持短查詢能力,同時(shí)系統(tǒng)具備極好的線性擴(kuò)展性。
高安全:云化系統(tǒng)需要在數(shù)據(jù)流轉(zhuǎn)的整個(gè)生命周期中保證客戶數(shù)據(jù)的安全性,其中包括數(shù)據(jù)傳輸、數(shù)據(jù)存儲、數(shù)據(jù)查詢以及數(shù)據(jù)正確性。對于數(shù)據(jù)傳輸和數(shù)據(jù)存儲,這個(gè)是常規(guī)特性,可以通過傳輸加密和存儲加密進(jìn)行解決,但華為云GaussDB解決了數(shù)據(jù)查詢和數(shù)據(jù)正確性方面的安全問題,通過密態(tài)查詢,即在查詢狀態(tài)下數(shù)據(jù)始終處于加密狀態(tài)解決數(shù)據(jù)查詢的安全性問題。通過使用追蹤鏈的方式,在多方狀況下能夠識別被篡改的數(shù)據(jù),從而解決數(shù)據(jù)正確性問題。
易運(yùn)維:華為云GaussDB通過將AI能力引入數(shù)據(jù)庫系統(tǒng)從而大幅度提升管理和運(yùn)維能力,比如通過自調(diào)優(yōu),極大解放了DBA枯燥的調(diào)優(yōu)工作,使其更聚焦于業(yè)務(wù)本身;通過引入索引推薦,幫助客戶減少83%的索引冗余,索引占用空間減少70%;同時(shí)還使用AI技術(shù)重構(gòu)了優(yōu)化器、自診斷等一系列數(shù)據(jù)庫核心模塊。
此外,圍繞AI-Native數(shù)據(jù)庫主題,華為云GaussDB基于AI技術(shù),對 SQL生成、SQL診斷、優(yōu)化器等方進(jìn)行深度研究,目前已經(jīng)在該領(lǐng)域取得突破性成就,并不斷持續(xù)創(chuàng)新。值得一提的是,2020年,華為云GaussDB 系列數(shù)據(jù)庫產(chǎn)品入選Gartner數(shù)據(jù)庫魔力象限,其技術(shù)實(shí)力屢獲權(quán)威認(rèn)可。