AWS 2023擴(kuò)大數(shù)據(jù)倉(cāng)庫(kù)Redshift產(chǎn)品廣度，打造企業(yè)資料全能分析中心

來(lái)源：十輪網(wǎng)

作者：十輪網(wǎng)

時(shí)間：2022-12-20

今年AWS云計(jì)算數(shù)據(jù)倉(cāng)庫(kù)服務(wù)Redshift推出正式滿10周年，但在這個(gè)特別的一年，AWS在年度大會(huì)上卻一反常態(tài)，沒(méi)有發(fā)布重大升級(jí)更新。

今年AWS云計(jì)算數(shù)據(jù)倉(cāng)庫(kù)服務(wù)Redshift推出正式滿10周年，但在這個(gè)特別的一年，AWS在年度大會(huì)上卻一反常態(tài)，沒(méi)有發(fā)布重大升級(jí)更新。取而代之的是，AWS在會(huì)中推出許多新功能，都是和Redshift相關(guān)，從更緊密資料集成、流媒體資料分析到強(qiáng)化安全訪問(wèn)。盡管看似都是些小更新，但AWS沒(méi)說(shuō)的是，藏在Redshift這次更新背后的更大企圖，就是要把Redshift打造成企業(yè)資料集散地，來(lái)符合各種現(xiàn)代化應(yīng)用的使用，以及能匯集整理各種類型資料，提供AI分析和后續(xù)應(yīng)用，更要讓這個(gè)能夠通吃各種資料類型的新一代數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)，成為加速企業(yè)資料現(xiàn)代化的關(guān)鍵產(chǎn)品。

要讓Redshift成為通吃各種資料類型的新一代數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)

AWS數(shù)據(jù)和機(jī)器學(xué)習(xí)副總裁Swami Sivasubramanian在數(shù)據(jù)主題演講中指出：“所有新功能都瞄準(zhǔn)同一個(gè)終極目的，不管資料在哪里都可以集中到Redshift上來(lái)分析。”顯然，AWS就是押寶Redshift，未來(lái)能夠成為企業(yè)資料的核心。

Redshift是第一個(gè)采用MPP（大量平行處理）架構(gòu)的云計(jì)算數(shù)據(jù)倉(cāng)庫(kù)，號(hào)稱比本地部署能以更經(jīng)濟(jì)高效的方式對(duì)大量數(shù)據(jù)進(jìn)行快速分析及查詢，并提供跨數(shù)據(jù)倉(cāng)庫(kù)、核心數(shù)據(jù)庫(kù)和資料湖分析結(jié)構(gòu)化和半結(jié)構(gòu)化資料執(zhí)行SQL查詢，更具有高擴(kuò)展彈性，Redshift Serverless在今年7月正式GA，讓云計(jì)算數(shù)據(jù)倉(cāng)庫(kù)也能應(yīng)對(duì)資料量多變的資料分析任務(wù)。目前，上萬(wàn)家企業(yè)使用Redshift，每天處理資料總量達(dá)到EB級(jí)。

但要打造Redshift成為企業(yè)統(tǒng)一的資料集散地，只是這樣還不夠。從今年功能更新來(lái)看，AWS對(duì)數(shù)據(jù)倉(cāng)庫(kù)布局更加完整，正一步步打通Redshift服務(wù)在企業(yè)資料架構(gòu)中的各環(huán)節(jié)，讓它的產(chǎn)品完整度更高，涵蓋到不同應(yīng)用層面，支持各種企業(yè)分析需求和資料集成。

AWS今年推出的第一個(gè)新功能，就是將資料前處理ETL步驟簡(jiǎn)化，甚至全面Zero-ETL化。ETL指的是資料萃取、轉(zhuǎn)置、加載的過(guò)程，以往企業(yè)會(huì)使用這個(gè)方式將多系統(tǒng)中的資料集成到單一數(shù)據(jù)倉(cāng)庫(kù)中，以便進(jìn)行分析和后續(xù)處理，過(guò)去Redshift要從其他數(shù)據(jù)庫(kù)、資料湖拿取資料，都得執(zhí)行ETL程序，但如此一來(lái)，資料分析就會(huì)太慢，甚至針對(duì)不同數(shù)據(jù)源或資料類型，就需要?jiǎng)?chuàng)建不同ETL流程，更不利于后續(xù)維護(hù)。直到現(xiàn)在才解決。

靠Zero-ETL化，解決Redshift跨數(shù)據(jù)庫(kù)資料集成的痛點(diǎn)

AWS推出Aurora Zero-ETL integration with Amazon Redshift這個(gè)新功能，結(jié)合Zero-ETL做法，讓Aurora數(shù)據(jù)庫(kù)中存儲(chǔ)的結(jié)構(gòu)化資料可以自動(dòng)匯進(jìn)Redshift，不需要?jiǎng)?chuàng)建和維護(hù)復(fù)雜的資料處理流程，來(lái)執(zhí)行ETL操作。因?yàn)榭梢詫①Y料同步時(shí)間縮短到幾秒內(nèi)，這意味著，企業(yè)可以更快從Aurora數(shù)據(jù)庫(kù)取得所需資料，進(jìn)行后續(xù)分析，還能執(zhí)行如ML高端分析、具體查看圖、資料共享以及聯(lián)邦查詢等，并從這些綜合資料分析中獲得整體的洞察。

不僅如此，Redshift還添加自動(dòng)復(fù)制功能，讓S3資料湖和Redshift之間更加緊密集成，用戶從S3中將資料復(fù)制到Redshift中，只要一鍵就能完成所有操作，不像以前多使用S3來(lái)做備份，需要特別分析才將資料放進(jìn)Redshift。

有了這個(gè)新功能以后，以后只要偵測(cè)到S3文件夾有更新文件，就會(huì)自動(dòng)執(zhí)行Redshift復(fù)制任務(wù)，等于是從S3就能直通到Redshift數(shù)據(jù)倉(cāng)庫(kù)，就能大大簡(jiǎn)化資料復(fù)制流程。對(duì)于資料分析人員來(lái)說(shuō)，只要從Redshift就能拿到各種類型的S3資料，而且能支持不同文件格式，如CSV、parquet檔或其他文本檔。不過(guò)目前還是預(yù)覽版。

不僅能更緩存用AWS資料，對(duì)于第三方資料集成與分析，AWS推出了名為Informatica Data Loader的免費(fèi)資料集成工具，只要通過(guò)Redshift控制臺(tái)，就能將第三方資料文件快速上傳至Redshift，目前可以支持Salesforce、Marketo在內(nèi)等超過(guò)30個(gè)原始資料源，可跨多種資料格式在Redshift中執(zhí)行高速且大量的資料上傳作業(yè)。

云計(jì)算流媒體資料的集成，也是Redshift這波更新一大重點(diǎn)，集成Kinesis Data Streams和Amazon MSK兩大資料流媒體引擎，強(qiáng)化Redshift對(duì)于流媒體資料截取的支持能力，使企業(yè)在取得流媒體資料時(shí)，不需要像以往得先將資料暫存到S3中，隔段時(shí)間后，再將整批數(shù)據(jù)加載到Redshift中，導(dǎo)致流媒體分析的速度變慢?，F(xiàn)在就沒(méi)有這個(gè)問(wèn)題，所有流媒體資料都能接近即時(shí)導(dǎo)入到Redshift數(shù)據(jù)倉(cāng)庫(kù)中。

甚至，AWS對(duì)于數(shù)據(jù)倉(cāng)庫(kù)的布局，如今也直接集成流媒體大數(shù)據(jù)分析領(lǐng)域的主流平臺(tái)Spark。借助Amazon Redshift Integration for Apache Spark這個(gè)新功能，企業(yè)以后在Redshift和無(wú)服務(wù)器Redshift服務(wù)上執(zhí)行Spark應(yīng)用變得更簡(jiǎn)單，不像以往使用Amazon EMR、SageMaker以及AWS Glue服務(wù)執(zhí)行Spark應(yīng)用時(shí)，需通過(guò)第三方Spark連接器才能讀寫Redshift資料，現(xiàn)在只要通過(guò)預(yù)先打包好的Redshift Connector for Spark工具，就能迅速取得Redshift資料，甚至激活速度比起傳統(tǒng)快10倍，還能支持Java、Python、Scala等語(yǔ)言編寫Spark應(yīng)用程序。這也意味著，將可擴(kuò)大數(shù)據(jù)倉(cāng)庫(kù)在流媒體分析大數(shù)據(jù)應(yīng)用范圍。

資料隱私和治理獲得大幅強(qiáng)化

資料管控更是Redshift數(shù)據(jù)倉(cāng)庫(kù)要能夠通吃各種資料類型成為統(tǒng)一的資料集散地的關(guān)鍵。

在今年更新中，AWS也大幅強(qiáng)化了Redshift的安全與可靠性。在安全性上，AWS推出兩項(xiàng)訪問(wèn)管控新功能，前者是動(dòng)態(tài)資料遮罩（Dynamic Data Masking）預(yù)覽功能，這是資料保護(hù)常見的功能，現(xiàn)在AWS把這項(xiàng)能力放進(jìn)Redshift中，強(qiáng)化資料隱私和處理。基于該功能，用戶從SQL查詢結(jié)果中就只會(huì)看到篩選過(guò)濾后的內(nèi)容，對(duì)涉及敏感性個(gè)人信息或其他機(jī)密敏感資料就會(huì)進(jìn)行遮敝或模糊化處理，沒(méi)有賦給權(quán)限的用戶就看不到，防止敏感性資料遭違法搜集和利用，以確保合乎隱私的要求。

后者則是Lake Formation-managed Redshift datashares功能，AWS讓企業(yè)也能利用資料湖管理工具Lake Formation管理Redshift的資料共享權(quán)限，通過(guò)這個(gè)集中式管理方式，企業(yè)就能使用更精細(xì)的訪問(wèn)控制，設(shè)置不同角色的資料共享權(quán)限，也能確保在不同AWS賬戶或跨區(qū)域中，都能安全地共享Redshift集群即時(shí)資料。目前同樣推出預(yù)覽板。

AWS推出最后一項(xiàng)新功能，則是可以提高Redshift服務(wù)可用性。Redshit添加Multi-AZ功能，讓企業(yè)可以在多個(gè)可用區(qū)部署Redshift，借此可以達(dá)到跟其他AWS數(shù)據(jù)庫(kù)服務(wù)一樣具備高可用，來(lái)確保服務(wù)可以全天運(yùn)行不停機(jī)，避免一旦服務(wù)中斷，企業(yè)就沒(méi)辦法通過(guò)它提供預(yù)測(cè)或協(xié)助高層加快決策，導(dǎo)致可能造成運(yùn)營(yíng)業(yè)虧損失的風(fēng)險(xiǎn)。除了可以Redshift RA3實(shí)例將數(shù)據(jù)存儲(chǔ)在Redshift Managed Storage中，也支持常見的災(zāi)難恢復(fù)功能，如自動(dòng)備份、故障轉(zhuǎn)移等。

AWS

上一篇：臉書更新漏洞挖掘獎(jiǎng)勵(lì)，RCE漏洞最高可拿30萬(wàn)美金

原文鏈接：點(diǎn)擊前往 >

版權(quán)說(shuō)明：本文內(nèi)容來(lái)自于十輪網(wǎng)，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán)，請(qǐng)聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章