AWS 2023擴大數(shù)據(jù)倉庫Redshift產(chǎn)品廣度,打造企業(yè)資料全能分析中心

來源:十輪網(wǎng)
作者:十輪網(wǎng)
時間:2022-12-20
2220
今年AWS云計算數(shù)據(jù)倉庫服務Redshift推出正式滿10周年,但在這個特別的一年,AWS在年度大會上卻一反常態(tài),沒有發(fā)布重大升級更新。

2022-12-19-AWS-1.jpg

今年AWS云計算數(shù)據(jù)倉庫服務Redshift推出正式滿10周年,但在這個特別的一年,AWS在年度大會上卻一反常態(tài),沒有發(fā)布重大升級更新。取而代之的是,AWS在會中推出許多新功能,都是和Redshift相關,從更緊密資料集成、流媒體資料分析到強化安全訪問。盡管看似都是些小更新,但AWS沒說的是,藏在Redshift這次更新背后的更大企圖,就是要把Redshift打造成企業(yè)資料集散地,來符合各種現(xiàn)代化應用的使用,以及能匯集整理各種類型資料,提供AI分析和后續(xù)應用,更要讓這個能夠通吃各種資料類型的新一代數(shù)據(jù)倉庫架構,成為加速企業(yè)資料現(xiàn)代化的關鍵產(chǎn)品。

要讓Redshift成為通吃各種資料類型的新一代數(shù)據(jù)倉庫架構

AWS數(shù)據(jù)和機器學習副總裁Swami Sivasubramanian在數(shù)據(jù)主題演講中指出:“所有新功能都瞄準同一個終極目的,不管資料在哪里都可以集中到Redshift上來分析?!憋@然,AWS就是押寶Redshift,未來能夠成為企業(yè)資料的核心。

Redshift是第一個采用MPP(大量平行處理)架構的云計算數(shù)據(jù)倉庫,號稱比本地部署能以更經(jīng)濟高效的方式對大量數(shù)據(jù)進行快速分析及查詢,并提供跨數(shù)據(jù)倉庫、核心數(shù)據(jù)庫和資料湖分析結構化和半結構化資料執(zhí)行SQL查詢,更具有高擴展彈性,Redshift Serverless在今年7月正式GA,讓云計算數(shù)據(jù)倉庫也能應對資料量多變的資料分析任務。目前,上萬家企業(yè)使用Redshift,每天處理資料總量達到EB級。

但要打造Redshift成為企業(yè)統(tǒng)一的資料集散地,只是這樣還不夠。從今年功能更新來看,AWS對數(shù)據(jù)倉庫布局更加完整,正一步步打通Redshift服務在企業(yè)資料架構中的各環(huán)節(jié),讓它的產(chǎn)品完整度更高,涵蓋到不同應用層面,支持各種企業(yè)分析需求和資料集成。

AWS今年推出的第一個新功能,就是將資料前處理ETL步驟簡化,甚至全面Zero-ETL化。ETL指的是資料萃取、轉置、加載的過程,以往企業(yè)會使用這個方式將多系統(tǒng)中的資料集成到單一數(shù)據(jù)倉庫中,以便進行分析和后續(xù)處理,過去Redshift要從其他數(shù)據(jù)庫、資料湖拿取資料,都得執(zhí)行ETL程序,但如此一來,資料分析就會太慢,甚至針對不同數(shù)據(jù)源或資料類型,就需要創(chuàng)建不同ETL流程,更不利于后續(xù)維護。直到現(xiàn)在才解決。

靠Zero-ETL化,解決Redshift跨數(shù)據(jù)庫資料集成的痛點

AWS推出Aurora Zero-ETL integration with Amazon Redshift這個新功能,結合Zero-ETL做法,讓Aurora數(shù)據(jù)庫中存儲的結構化資料可以自動匯進Redshift,不需要創(chuàng)建和維護復雜的資料處理流程,來執(zhí)行ETL操作。因為可以將資料同步時間縮短到幾秒內(nèi),這意味著,企業(yè)可以更快從Aurora數(shù)據(jù)庫取得所需資料,進行后續(xù)分析,還能執(zhí)行如ML高端分析、具體查看圖、資料共享以及聯(lián)邦查詢等,并從這些綜合資料分析中獲得整體的洞察。

不僅如此,Redshift還添加自動復制功能,讓S3資料湖和Redshift之間更加緊密集成,用戶從S3中將資料復制到Redshift中,只要一鍵就能完成所有操作,不像以前多使用S3來做備份,需要特別分析才將資料放進Redshift。

有了這個新功能以后,以后只要偵測到S3文件夾有更新文件,就會自動執(zhí)行Redshift復制任務,等于是從S3就能直通到Redshift數(shù)據(jù)倉庫,就能大大簡化資料復制流程。對于資料分析人員來說,只要從Redshift就能拿到各種類型的S3資料,而且能支持不同文件格式,如CSV、parquet檔或其他文本檔。不過目前還是預覽版。

不僅能更緩存用AWS資料,對于第三方資料集成與分析,AWS推出了名為Informatica Data Loader的免費資料集成工具,只要通過Redshift控制臺,就能將第三方資料文件快速上傳至Redshift,目前可以支持Salesforce、Marketo在內(nèi)等超過30個原始資料源,可跨多種資料格式在Redshift中執(zhí)行高速且大量的資料上傳作業(yè)。

云計算流媒體資料的集成,也是Redshift這波更新一大重點,集成Kinesis Data Streams和Amazon MSK兩大資料流媒體引擎,強化Redshift對于流媒體資料截取的支持能力,使企業(yè)在取得流媒體資料時,不需要像以往得先將資料暫存到S3中,隔段時間后,再將整批數(shù)據(jù)加載到Redshift中,導致流媒體分析的速度變慢。現(xiàn)在就沒有這個問題,所有流媒體資料都能接近即時導入到Redshift數(shù)據(jù)倉庫中。

甚至,AWS對于數(shù)據(jù)倉庫的布局,如今也直接集成流媒體大數(shù)據(jù)分析領域的主流平臺Spark。借助Amazon Redshift Integration for Apache Spark這個新功能,企業(yè)以后在Redshift和無服務器Redshift服務上執(zhí)行Spark應用變得更簡單,不像以往使用Amazon EMR、SageMaker以及AWS Glue服務執(zhí)行Spark應用時,需通過第三方Spark連接器才能讀寫Redshift資料,現(xiàn)在只要通過預先打包好的Redshift Connector for Spark工具,就能迅速取得Redshift資料,甚至激活速度比起傳統(tǒng)快10倍,還能支持Java、Python、Scala等語言編寫Spark應用程序。這也意味著,將可擴大數(shù)據(jù)倉庫在流媒體分析大數(shù)據(jù)應用范圍。

資料隱私和治理獲得大幅強化

資料管控更是Redshift數(shù)據(jù)倉庫要能夠通吃各種資料類型成為統(tǒng)一的資料集散地的關鍵。

在今年更新中,AWS也大幅強化了Redshift的安全與可靠性。在安全性上,AWS推出兩項訪問管控新功能,前者是動態(tài)資料遮罩(Dynamic Data Masking)預覽功能,這是資料保護常見的功能,現(xiàn)在AWS把這項能力放進Redshift中,強化資料隱私和處理?;谠摴δ?,用戶從SQL查詢結果中就只會看到篩選過濾后的內(nèi)容,對涉及敏感性個人信息或其他機密敏感資料就會進行遮敝或模糊化處理,沒有賦給權限的用戶就看不到,防止敏感性資料遭違法搜集和利用,以確保合乎隱私的要求。

后者則是Lake Formation-managed Redshift datashares功能,AWS讓企業(yè)也能利用資料湖管理工具Lake Formation管理Redshift的資料共享權限,通過這個集中式管理方式,企業(yè)就能使用更精細的訪問控制,設置不同角色的資料共享權限,也能確保在不同AWS賬戶或跨區(qū)域中,都能安全地共享Redshift集群即時資料。目前同樣推出預覽板。

AWS推出最后一項新功能,則是可以提高Redshift服務可用性。Redshit添加Multi-AZ功能,讓企業(yè)可以在多個可用區(qū)部署Redshift,借此可以達到跟其他AWS數(shù)據(jù)庫服務一樣具備高可用,來確保服務可以全天運行不停機,避免一旦服務中斷,企業(yè)就沒辦法通過它提供預測或協(xié)助高層加快決策,導致可能造成運營業(yè)虧損失的風險。除了可以Redshift RA3實例將數(shù)據(jù)存儲在Redshift Managed Storage中,也支持常見的災難恢復功能,如自動備份、故障轉移等。

AWS
原文鏈接:點擊前往 >
版權說明:本文內(nèi)容來自于十輪網(wǎng),本站不擁有所有權,不承擔相關法律責任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權,請聯(lián)系管理員(zzx@kchuhai.com)刪除!
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務合作
商務合作
投稿采訪
投稿采訪
出海管家
出海管家