內(nèi)部部署數(shù)據(jù)倉庫與云計算數(shù)據(jù)倉庫的優(yōu)缺點

來源:企業(yè)網(wǎng)D1Net
作者:Chris Foot
時間:2023-02-08
1428
數(shù)據(jù)倉庫被各種規(guī)模的企業(yè)廣泛用于為商業(yè)智能(BI)和分析應(yīng)用程序攝取、存儲和處理大量的數(shù)據(jù)。數(shù)據(jù)倉庫出現(xiàn)在上世紀90年代,是一種成熟的主流技術(shù)。但是如今對于希望部署數(shù)據(jù)倉庫的企業(yè)而言,其中一項重大決策是將其放在內(nèi)部部署設(shè)施還是云平臺中。

數(shù)據(jù)倉庫被各種規(guī)模的企業(yè)廣泛用于為商業(yè)智能(BI)和分析應(yīng)用程序攝取、存儲和處理大量的數(shù)據(jù)。數(shù)據(jù)倉庫出現(xiàn)在上世紀90年代,是一種成熟的主流技術(shù)。但是如今對于希望部署數(shù)據(jù)倉庫的企業(yè)而言,其中一項重大決策是將其放在內(nèi)部部署設(shè)施還是云平臺中。

與其他類型的IT系統(tǒng)一樣,與內(nèi)部部署數(shù)據(jù)倉庫相比,云計算數(shù)據(jù)倉庫提供了各種好處:例如易于擴展,更具靈活性,數(shù)據(jù)庫管理員(DBA)的日常管理工作更少。但是每個企業(yè)都有自己的一些需求和優(yōu)先事項,因此在規(guī)劃數(shù)據(jù)倉庫部署之前,需要對云計算和內(nèi)部部署的選項進行比較。為了幫助解決這個問題,以下介紹了這兩種方法及其優(yōu)缺點。

內(nèi)部部署倉庫架構(gòu)vs.云計算數(shù)據(jù)倉庫架構(gòu)

高質(zhì)量的計算環(huán)境(包括服務(wù)器、操作系統(tǒng)、存儲和數(shù)據(jù)庫)對于任何使用大量數(shù)據(jù)的應(yīng)用程序的成功都是至關(guān)重要的。這無疑適用于數(shù)據(jù)倉庫:企業(yè)為了選擇最佳的數(shù)據(jù)倉庫平臺,IT和數(shù)據(jù)管理團隊需要評估完整的系統(tǒng)環(huán)境,而不僅僅是其核心的數(shù)據(jù)庫軟件。

傳統(tǒng)的數(shù)據(jù)倉庫架構(gòu)由以下三層組成:

·底層具有數(shù)據(jù)庫服務(wù)器,其中包含數(shù)據(jù)倉庫本身;

·中間層處理數(shù)據(jù)以進行分析,通常由在線分析處理或OLAP引擎進行;

·頂層作為商業(yè)智能和分析工具的表示層和前端接口。

企業(yè)數(shù)據(jù)倉庫將來自企業(yè)所有業(yè)務(wù)運營的數(shù)據(jù)存儲在一個集中的平臺中;另一方面,數(shù)據(jù)集市是較小的倉儲系統(tǒng),其中包含特定部門、業(yè)務(wù)單位或用戶組的數(shù)據(jù)子集。兩者通常都包含在數(shù)據(jù)倉庫架構(gòu)中,以下是設(shè)計一種架構(gòu)的兩種主要方法,這是一種通常簡稱為Inmon與Kimball的選擇。

·自上而下的方法。該方法由計算機科學家和供應(yīng)商高管Bill Inmon創(chuàng)建,從企業(yè)數(shù)據(jù)倉庫開始,然后使用存儲在其中的數(shù)據(jù)集來設(shè)置各種數(shù)據(jù)集市。

·自下而上的方法。技術(shù)顧問Ralph Kimball通過開發(fā)這種替代方法實現(xiàn)了徹底的轉(zhuǎn)變,其中構(gòu)建了單獨的數(shù)據(jù)集市,然后將其集成以生成企業(yè)數(shù)據(jù)倉庫。

使用這些傳統(tǒng)概念,云計算使數(shù)據(jù)倉庫供應(yīng)商能夠定制其底層硬件和軟件架構(gòu),以滿足不同的處理需求。以下是云計算數(shù)據(jù)倉庫產(chǎn)品的一些典型示例,以下按字母順序列出。

·用于分析和數(shù)據(jù)倉庫的Autonomous Database。Oracle公司用于云中分析數(shù)據(jù)的旗艦系統(tǒng)構(gòu)建在Oracle數(shù)據(jù)庫和Oracle Exadata計算平臺之上。該系統(tǒng)可用于共享或?qū)S没A(chǔ)設(shè)施部署,也可通過Oracle的Cloud Customer服務(wù)安裝在內(nèi)部部署設(shè)施中。Oracle公司的共享基礎(chǔ)設(shè)施是一種更傳統(tǒng)的云計算服務(wù),而專用的則為客戶提供一個完全私有的公有云環(huán)境,擁有自己的計算、存儲、網(wǎng)絡(luò)和數(shù)據(jù)庫資源。

·Azure Synapse分析。微軟公司的云分析服務(wù)提供無服務(wù)器和專用資源模型,并使用稱為Synapse SQL的分布式SQL處理引擎來運行數(shù)據(jù)倉庫的查詢。它還包括ApacheSpark作為大數(shù)據(jù)分析引擎和Azure DataLake Storage Gen 2作為其數(shù)據(jù)存儲。該平臺基于橫向擴展的大規(guī)模并行處理(MPP)架構(gòu),可跨多個節(jié)點分配工作負載并將計算資源與存儲分開,使客戶能夠獨立擴展每個節(jié)點。

·BigQuery。Google BigQuery是一個無服務(wù)器云數(shù)據(jù)倉庫,具有基于SQL的分布式MPP分析引擎,可以將其大部分數(shù)據(jù)存儲在表中。每個表列都是單獨存儲的,這使BigQuery能夠比傳統(tǒng)的基于行的存儲更有效地掃描整個數(shù)據(jù)集的各個列。BigQuery同時使用分區(qū)和集群來提供高性能數(shù)據(jù)訪問。它還支持多云數(shù)據(jù)倉庫部署,并包括用于機器學習、預測建模和地理空間分析的引擎。

·Redshift。AWS公司的Amazon Redshift使用集群來預置一個或多個計算節(jié)點,以便在數(shù)據(jù)倉庫、操作數(shù)據(jù)庫和數(shù)據(jù)湖中運行分析應(yīng)用程序。AWS提供無服務(wù)器選項、機器學習模塊以及與其他各種云服務(wù)的原生集成,包括商業(yè)智能、數(shù)據(jù)集成和大數(shù)據(jù)處理工具。與BigQuery一樣,Redshift將每個表列分開存儲;它還提供自動表優(yōu)化功能,通過改進數(shù)據(jù)集的物理布局來提高集群中的查詢速度。

·Snowflake。與大多數(shù)競爭對手不同,Snowflake的數(shù)據(jù)倉庫系統(tǒng)旨在跨AWS、Azure和谷歌云平臺運行。Snowflake將其處理環(huán)境描述為混合共享磁盤/無共享架構(gòu)。該產(chǎn)品使用中央存儲庫在整個環(huán)境中共享數(shù)據(jù),并使用多個大規(guī)模并行處理(MPP)計算集群來分離工作負載,集群中的每個節(jié)點都在內(nèi)部部署存儲部分數(shù)據(jù)集。作為一項完全托管的服務(wù),Snowflake還支持數(shù)據(jù)湖、數(shù)據(jù)工程和數(shù)據(jù)科學工作負載。

內(nèi)部部署數(shù)據(jù)倉庫和云計算數(shù)據(jù)倉庫的優(yōu)缺點

內(nèi)部部署數(shù)據(jù)倉庫面臨的一大挑戰(zhàn)是需要部署滿足企業(yè)的數(shù)據(jù)架構(gòu)和處理要求的硬件和軟件計算環(huán)境。硬件支持團隊、系統(tǒng)管理員和數(shù)據(jù)庫與數(shù)據(jù)倉庫軟件供應(yīng)商一起構(gòu)建運行環(huán)境,這通常很復雜,需要專門的團隊來進行管理和支持。此外,擴展內(nèi)部部署系統(tǒng)以滿足不斷增加的數(shù)據(jù)存儲和工作負載增長可能既昂貴又耗時。

但云計算數(shù)據(jù)倉庫也可能給企業(yè)帶來一些挑戰(zhàn),并需要改變IT流程。以下是有關(guān)這兩種方法在某些關(guān)鍵領(lǐng)域的優(yōu)缺點的詳細信息。

(1)成本

很明顯,在內(nèi)部部署數(shù)據(jù)中心部署和支持數(shù)據(jù)倉庫系統(tǒng)的成本通常比從云計算提供商那里租用一個基于使用量付費的數(shù)據(jù)倉庫系統(tǒng)要高得多。對于由供應(yīng)商完全管理的數(shù)據(jù)倉庫即服務(wù)(DWaaS)環(huán)境尤其如此。但對于已經(jīng)在現(xiàn)有數(shù)據(jù)中心進行投資的企業(yè)而言,云計算與內(nèi)部部署的成本比較并不那么簡單。

云平臺最初的賣點是能夠降低IT成本。但在云中實施應(yīng)用程序的企業(yè)很快意識到節(jié)省成本并不總是其主要優(yōu)勢之一。企業(yè)可能不必為云計算數(shù)據(jù)倉庫系統(tǒng)購買服務(wù)器和軟件,但使用云供應(yīng)商的計算、內(nèi)存和硬盤資源的成本可能會增加,尤其是在數(shù)據(jù)倉庫工作負載意外增加的情況下。

當然,在比較內(nèi)部部署和云平臺時,系統(tǒng)成本并不是IT團隊需要考慮的唯一成本。支持環(huán)境所需的勞動力成本也必須考慮在內(nèi)。對于內(nèi)部部署數(shù)據(jù)中心,這包括對計算硬件、操作系統(tǒng)、磁盤存儲和數(shù)據(jù)庫的管理支持。云計算數(shù)據(jù)倉庫并沒有完全消除支持成本,例如在DWaaS環(huán)境中,數(shù)據(jù)倉庫仍然需要處理管理任務(wù)。但這種成本在云中通常要低得多。

還有其他一些經(jīng)常被忽視的成本。在公有云中部署數(shù)據(jù)倉庫的企業(yè)不會產(chǎn)生合規(guī)性認證、數(shù)據(jù)中心環(huán)境控制、能源消耗、高可用性和災難恢復配置以及系統(tǒng)改進方面的直接成本。這些成本都包括在云計算服務(wù)的成本中,有些可能會導致企業(yè)的使用成本更高,但云計算供應(yīng)商會為它們支付費用。

(2)新特性和功能

云計算數(shù)據(jù)倉庫市場競爭激烈,這迫使云計算供應(yīng)商將他們的功能集實現(xiàn)最大化。而不斷創(chuàng)新和集成新功能以使其產(chǎn)品與競爭對手的產(chǎn)品區(qū)分開來是絕對必要的。因此,云計算數(shù)據(jù)倉庫用戶能夠利用源源不斷的新特性和功能。

此外,由于云計算供應(yīng)商對整個數(shù)據(jù)倉庫系統(tǒng)負責,他們的客戶可以受益于從底層計算基礎(chǔ)設(shè)施到數(shù)據(jù)倉庫軟件本身的增強。對于自己管理環(huán)境的內(nèi)部部署用戶而言,升級系統(tǒng)和部署新軟件版本更加復雜。新功能在內(nèi)部部署數(shù)據(jù)倉庫軟件中的可用速度也可能不如在云計算服務(wù)中的可用速度,這些云計算服務(wù)可以由供應(yīng)商持續(xù)更新。

云平臺的另一個潛在優(yōu)勢是:為了補充其核心數(shù)據(jù)倉庫功能以用于基本商業(yè)和報告用途,行業(yè)領(lǐng)先的云計算供應(yīng)商和其他競爭對手都提供了支持數(shù)據(jù)湖、機器學習、大數(shù)據(jù)分析、數(shù)據(jù)管道的附加技術(shù)和高級分析應(yīng)用程序的開發(fā)和其他功能。

(3)可擴展性

系統(tǒng)可擴展性幫助IT團隊應(yīng)對處理工作負載的增長。當性能調(diào)整和更新軟件配置不再對系統(tǒng)吞吐量產(chǎn)生積極影響時,就需要添加硬盤、內(nèi)存和計算容量??蓴U展性對于數(shù)據(jù)倉庫也很重要,以便在添加新的源系統(tǒng)時適應(yīng)數(shù)據(jù)增長。

但是擴展內(nèi)部部署數(shù)據(jù)倉庫平臺可能是一件非常麻煩的事。如果服務(wù)器有能力增加CPU或內(nèi)存,系統(tǒng)管理員需要打開機箱并更換或添加組件。對于沒有額外可用容量的服務(wù)器,硬件需要升級到更大的系統(tǒng)。集群環(huán)境提供水平擴展,可以添加更多服務(wù)器,但硬件、軟件和管理成本很快就會變得過高。

云平臺的主要賣點之一是易于擴展。例如,Amazon Redshift用戶可以快速將節(jié)點添加到他們的運行環(huán)境中,以獲得更好的性能和更多的存儲空間。Oracle自治數(shù)據(jù)庫通過提供自動擴展功能更進一步,該功能可以自動增加計算或存儲資源。AWS和Snowflake提供了類似的并發(fā)擴展功能,可以在工作負載增加時自動增加集群容量。

(4)性能監(jiān)控和調(diào)整

為了優(yōu)化數(shù)據(jù)倉庫的性能,內(nèi)部部署平臺通常需要IT團隊使用單獨的工具來監(jiān)控硬件、操作系統(tǒng)和數(shù)據(jù)庫。由于云計算供應(yīng)商能夠為其數(shù)據(jù)倉庫基礎(chǔ)設(shè)施定制其性能監(jiān)控工具和顧問實用程序,因此這些工具通常提供比內(nèi)部部署的工具更全面的信息。

然而,除了標準的數(shù)據(jù)庫性能調(diào)優(yōu)挑戰(zhàn)之外,云平臺還為性能監(jiān)控和故障排除增加了另一個維度。將數(shù)據(jù)傳入和傳出云數(shù)據(jù)倉庫系統(tǒng)可能具有挑戰(zhàn)性,尤其是在數(shù)據(jù)量大且時間緊迫的情況下。此外,在云平臺上實施數(shù)據(jù)倉庫的企業(yè)并不完全對性能負責。當系統(tǒng)性能受到懷疑并且擴展并不是一種很好的選擇或無法解決問題時,企業(yè)將不得不與其云計算提供商合作以確定根本原因。

更糟糕的是,當資源被過度利用時,云計算數(shù)據(jù)倉庫系統(tǒng)可能會停止企業(yè)的工作負載。在任何數(shù)據(jù)庫環(huán)境、內(nèi)部部署設(shè)施或云平臺中,只需要一些調(diào)整不當?shù)牟樵兙涂赡茉黾淤Y源消耗。但是云計算資源利用率的持續(xù)增加可能會導致企業(yè)被迫升級到更高的性能層。

(5)管理控制

在內(nèi)部部署環(huán)境中,IT部門對其計算系統(tǒng)擁有完全的控制權(quán)和全部責任。對于云計算數(shù)據(jù)倉庫,企業(yè)將與供應(yīng)商分擔這些責任。尤其是在完全托管的DWaaS環(huán)境中,企業(yè)可能放棄管理數(shù)據(jù)倉庫平臺的部分所有權(quán)。

有些IT部門會將此視為一種好處,而另一些則將其視為一種風險,但大多數(shù)人可能會將其視為風險和回報的結(jié)合。而行業(yè)領(lǐng)先的云計算數(shù)據(jù)倉庫提供商都提供服務(wù)水平協(xié)議,以保證最低正常運行時間百分比,這將有助于減少對系統(tǒng)失去控制的擔憂。

(6)安全

同樣,部署內(nèi)部部署數(shù)據(jù)倉庫的企業(yè)負責保護整個環(huán)境——從硬件基礎(chǔ)設(shè)施到軟件堆棧。但是在云中,安全責任由提供商分擔。重要的是要了解企業(yè)不會將100%的安全責任移交給供應(yīng)商。在云安全的責任共擔模型下,客戶仍然需要處理保護數(shù)據(jù)倉庫環(huán)境的某些方面。

責任的劃分方式可能因供應(yīng)商而異。它還取決于企業(yè)是使用托管DWaaS環(huán)境還是IaaS環(huán)境,其中供應(yīng)商通常只負責保護底層IT基礎(chǔ)設(shè)施。不過,一般而言,IT團隊仍對數(shù)據(jù)安全、數(shù)據(jù)分類、訪問控制和端點設(shè)備安全等任務(wù)負責。

標準的安全最佳實踐適用于內(nèi)部部署和云平臺,但使用云計算數(shù)據(jù)倉庫系統(tǒng)的企業(yè)能夠與云計算供應(yīng)商分擔保護其運營環(huán)境的成本。能夠利用云計算供應(yīng)商的安全功能是另一個優(yōu)勢,他們有更多的動機來確保云平臺的安全性,他們?yōu)榇送度肓舜罅抠Y金。

(7)審計和監(jiān)管合規(guī)

如上所述,云計算數(shù)據(jù)倉庫的好處之一是云計算供應(yīng)商承擔底層架構(gòu)的責任。但這可能會給需要遵守行業(yè)標準或監(jiān)管合規(guī)性以及內(nèi)部標準的企業(yè)帶來挑戰(zhàn)。

與安全性非常相似,合規(guī)性是客戶和云計算供應(yīng)商之間的共同責任。云計算供應(yīng)商通常會為HIPAA、GDPR和其他合規(guī)框架提供第三方審計師合規(guī)報告和證明。但是企業(yè)必須與云計算供應(yīng)商合作,根據(jù)企業(yè)的特定審計需求收集所需的支持證據(jù),以驗證數(shù)據(jù)倉庫系統(tǒng)是否符合適用的框架。

盡管使用云計算服務(wù)可能會使查找所需證據(jù)變得更加耗時,但將一些監(jiān)管合規(guī)成本轉(zhuǎn)嫁給云計算供應(yīng)商對于企業(yè)來說可能更重要。

立即登錄,閱讀全文
原文鏈接:點擊前往 >
文章來源:企業(yè)網(wǎng)D1Net
版權(quán)說明:本文內(nèi)容來自于企業(yè)網(wǎng)D1Net,本站不擁有所有權(quán),不承擔相關(guān)法律責任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
掃碼關(guān)注
獲取更多出海資訊的相關(guān)信息
優(yōu)質(zhì)服務(wù)商推薦
更多
個人VIP