Azure SQL 數(shù)據(jù)庫倉庫Data Warehouse入門

來源: 博客園
作者:Lei Zhang
時間:2020-09-08
17417
SQL DW是云端的企業(yè)級數(shù)據(jù)倉庫,用來處理TB,甚至PB級別的關(guān)系型數(shù)據(jù)庫的OLAP(聯(lián)機分析處理)場景,主要用來做數(shù)據(jù)分析和查詢。

pexels-polina-zimmerman-3746958.jpg

1.什么是SQL數(shù)據(jù)庫倉庫(SQL DW)

SQL DW是云端的企業(yè)級數(shù)據(jù)倉庫,用來處理TB,甚至PB級別的關(guān)系型數(shù)據(jù)庫的OLAP(聯(lián)機分析處理)場景,主要用來做數(shù)據(jù)分析和查詢。

2.什么是OLAP

OLAP(Online Analysis Processing)聯(lián)機分析處理。表示從多維數(shù)據(jù)集的多維結(jié)構(gòu)來對數(shù)據(jù)進行聚合處理

3.OLAP和OLTP的區(qū)別

OLTP(Online Transaction Processing),聯(lián)機事務(wù)處理。表示事務(wù)性非常高的系統(tǒng),高頻度的插入、讀取、刪除操作

OLAP和OLTP的使用場景不一樣

4.SQL Data Warehouse不適合的場景

SQL DW不適合OLTP的場景,不適合數(shù)據(jù)庫的高頻Insert/update/delete

(1)OLTP工作負載

(2)大量的小讀寫

(3)多租戶數(shù)據(jù)庫

(4)經(jīng)常更改架構(gòu)

(5)逐行處理

(6)JSON,XML數(shù)據(jù)和Spatial,Struct,Array和Map數(shù)據(jù)類型

(7)Power BI直接查詢需要儀表板性能

(8)查詢的高并發(fā)性(例如,數(shù)十萬個并發(fā)查詢)

(9)小數(shù)據(jù)集(小于250GB)

(10)通過嚴格的RPO和RTO進行災(zāi)難恢復(fù)

5.SQL DW適合的場景

SQL適合OLAP(聯(lián)機分析處理)的場景,比如報告,統(tǒng)計,分析等場景

6.SQL DW的設(shè)計模式

(1)批量導(dǎo)入數(shù)據(jù)

(2)將Table數(shù)據(jù)拆分為事實表和維度表

(3)涉及多張表鏈接的復(fù)雜查詢

(4)針對某些維度的聚合查詢

7.什么叫做事實表和維度表

(1)事實表,就是用來存儲真實數(shù)據(jù)的表,包含數(shù)字信息。比如訂單數(shù)據(jù)表,銷售數(shù)據(jù)表等。事實表中的數(shù)據(jù)量一般很大

(2)維度表,就是用來描述用戶分析數(shù)據(jù)的角度。一般是事實表的外鍵表,比如年-月-日,大洲-國家-省份。

一般來說,事實表就是要關(guān)注的內(nèi)容,維度表就是進行統(tǒng)計的角度。

8.SQL DW的使用場景

(1)在過去1個月內(nèi),有多少客戶訂購了該產(chǎn)品,統(tǒng)計庫存水平是否足夠

(2)一周內(nèi),哪一天客戶從ATM取款最多

(3)統(tǒng)計過去30天內(nèi),每天的銷售額有多少

9.Azure SQL DW采用了大規(guī)模并行處理(MPP)架構(gòu)。

作為微軟云Azure的一種服務(wù),Azure SQL DW由微軟維護底層的硬件和軟件,以保證SQL DW始終運行在Azure最新的硬件和軟件上

客戶可以輕松的把數(shù)據(jù)加載到SQL DW并進行查詢,在業(yè)務(wù)高峰時,可以橫向擴展計算節(jié)點

10.什么是大規(guī)模并行處理MPP架構(gòu)

MPP架構(gòu)的角色分為頭節(jié)點(Head Node)和工作節(jié)點(Work Node)。

Head Node保存了數(shù)據(jù)表的源數(shù)據(jù)(Meta data),也就是說Head Node知道數(shù)據(jù)庫的哪些數(shù)據(jù),保存在哪些Work Node里

用戶的數(shù)據(jù)表分布在不同的Work Node里。

當用戶對SQL DW進行查詢的時候,Head Node會把查詢語句分解為很多子查詢,根據(jù)需要進行數(shù)據(jù)移動,并且把這些子查詢發(fā)送給Work Node以進行并行執(zhí)行

舉個例子,假設(shè)1個班級有60個學(xué)生,當老師需要批改作業(yè)的時候,有兩種方法:

(1)老師一個人批改所有60個學(xué)生的試卷,速度會很慢

(2)老師把學(xué)生分為6組,每組10個人。然后把全班的試卷平均的分配給這6組。由每個組各自批改試卷。這樣批改作業(yè)就平行了

顯而易見,第二種方法的效率最高

MPP架構(gòu),除了微軟的SQL DW以外,還有Hadoop(Hive和Spark),Teradata,Amazon Redshift,Vertica等產(chǎn)品

11.SMP架構(gòu)

與MPP相反架構(gòu),是SMP(Symmetric Multiprocessing),這就類似于傳統(tǒng)的單一數(shù)據(jù)庫。所有的業(yè)務(wù)邏輯都有1臺服務(wù)器在處理

比如傳統(tǒng)的SQL Server,MySQL等,都屬于SMP架構(gòu)

12.MPP架構(gòu)和SMP架構(gòu),如何支撐更多的業(yè)務(wù)需求

(1)在MPP架構(gòu)里,計算節(jié)點是橫向擴展的。比如從6個節(jié)點并行處理,橫向擴展為20個節(jié)點并行處理。這種方式又被稱為Scale-Out

(2)在SMP架構(gòu)里,計算節(jié)點和向上向下擴展的。比如從1臺8Core/16GB的服務(wù)器,向上擴展為1臺32Core/512GB的服務(wù)器。這種方式又被稱為Scale-Up

立即登錄,閱讀全文
版權(quán)說明:
本文內(nèi)容來自于博客園,本站不擁有所有權(quán),不承擔相關(guān)法律責任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
掃碼登錄
打開掃一掃, 關(guān)注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家