適用于:SQL api Azure Cosmos DB適用于MONGODB的api
重要
適用于Azure Cosmos DB的Azure Synapse鏈接的Synapse無(wú)服務(wù)器SQL池支持目前以預(yù)覽版提供。此預(yù)覽版在提供時(shí)沒有附帶服務(wù)級(jí)別協(xié)議,不建議將其用于生產(chǎn)工作負(fù)荷。有關(guān)詳細(xì)信息,請(qǐng)參閱Microsoft Azure預(yù)覽版補(bǔ)充使用條款。
Azure Synapse Link for Azure Cosmos DB是一種云原生混合事務(wù)和分析處理(HTAP)功能,可用于對(duì)Azure Cosmos DB中的操作數(shù)據(jù)運(yùn)行準(zhǔn)實(shí)時(shí)分析。Azure Synapse Link在Azure Cosmos DB和Azure Synapse Analytics之間建立緊密無(wú)縫的集成。
通過使用Azure Cosmos DB分析存儲(chǔ)(完全隔離的列存儲(chǔ)),Azure Synapse Link可以在Azure Synapse Analytics中針對(duì)大規(guī)模操作數(shù)據(jù)提供無(wú)提取-轉(zhuǎn)換-加載(ETL)分析。業(yè)務(wù)分析師、數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家現(xiàn)在可以互換使用Synapse Spark或Synapse SQL來(lái)運(yùn)行準(zhǔn)實(shí)時(shí)商業(yè)智能、分析和機(jī)器學(xué)習(xí)管道??梢詫?shí)現(xiàn)此目的,而不會(huì)影響Azure Cosmos DB上的事務(wù)工作負(fù)荷的性能。
下圖顯示了Azure Synapse Link與Azure Cosmos DB和Azure Synapse Analytics的集成:
優(yōu)勢(shì)
若要分析較大的操作數(shù)據(jù)集,同時(shí)最大限度地降低對(duì)任務(wù)關(guān)鍵型事務(wù)工作負(fù)荷性能的影響,通常情況下會(huì)通過提取-轉(zhuǎn)換-加載(ETL)管道提取并處理Azure Cosmos DB中的操作數(shù)據(jù)。ETL管道需要大量數(shù)據(jù)移動(dòng),這樣會(huì)增加操作復(fù)雜性,并對(duì)事務(wù)工作負(fù)荷產(chǎn)生性能影響。還會(huì)增加延遲以從原始時(shí)間分析操作數(shù)據(jù)。
與傳統(tǒng)的基于ETL的解決方案相比,Azure Synapse Link for Azure Cosmos DB提供了多種優(yōu)勢(shì),例如:
降低了復(fù)雜性,無(wú)需管理ETL作業(yè)
借助Azure Synapse Link,可以使用Azure Synapse Analytics直接訪問Azure Cosmos DB分析存儲(chǔ),無(wú)需進(jìn)行復(fù)雜的數(shù)據(jù)移動(dòng)。對(duì)操作數(shù)據(jù)所做的任何更新都準(zhǔn)實(shí)時(shí)顯示在分析存儲(chǔ)中,不包含任何ETL或更改源作業(yè)。你可以從Azure Synapse Analytics針對(duì)分析存儲(chǔ)運(yùn)行大規(guī)模分析,而無(wú)需進(jìn)行額外的數(shù)據(jù)轉(zhuǎn)換。
準(zhǔn)實(shí)時(shí)了解操作數(shù)據(jù)
使用Azure Synapse Link,現(xiàn)在可以準(zhǔn)實(shí)時(shí)深入了解操作數(shù)據(jù)。由于有許多層要提取、轉(zhuǎn)換和加載操作數(shù)據(jù),因此基于ETL的系統(tǒng)在分析操作數(shù)據(jù)時(shí)往往會(huì)產(chǎn)生較高的延遲。通過Azure Cosmos DB分析存儲(chǔ)與Azure Synapse Analytics的本機(jī)集成,可以準(zhǔn)實(shí)時(shí)分析操作數(shù)據(jù),從而啟用新的業(yè)務(wù)方案。
不會(huì)影響操作工作負(fù)荷
借助Azure Synapse Link,可以在使用事務(wù)工作負(fù)荷(基于行的事務(wù)存儲(chǔ))的預(yù)配吞吐量處理事務(wù)操作時(shí),針對(duì)Azure Cosmos DB分析存儲(chǔ)(單獨(dú)的列存儲(chǔ))運(yùn)行分析查詢。分析工作負(fù)荷獨(dú)立于事務(wù)工作負(fù)荷流量提供,無(wú)需使用為操作數(shù)據(jù)預(yù)配的任何吞吐量。
針對(duì)大規(guī)模分析工作負(fù)荷進(jìn)行了優(yōu)化
Azure Cosmos DB分析存儲(chǔ)已經(jīng)過優(yōu)化,可為分析工作負(fù)荷提供可伸縮性、彈性和性能,無(wú)需依賴計(jì)算運(yùn)行時(shí)。存儲(chǔ)技術(shù)是自行管理,可優(yōu)化分析工作負(fù)荷。通過對(duì)Azure Synapse Analytics的內(nèi)置支持,訪問此存儲(chǔ)層可提供簡(jiǎn)單性和高性能。
經(jīng)濟(jì)高效
借助Azure Synapse Link,可以為運(yùn)營(yíng)分析獲取成本優(yōu)化且完全托管的解決方案。它消除了用于分析操作數(shù)據(jù)的傳統(tǒng)ETL管道所需的額外存儲(chǔ)層和計(jì)算層。
Azure Cosmos DB分析存儲(chǔ)遵循基于消耗的定價(jià)模型,該模型基于數(shù)據(jù)存儲(chǔ)和分析讀/寫操作以及已執(zhí)行的查詢。這不會(huì)要求你預(yù)配任何吞吐量,因?yàn)槟壳叭绱瞬僮魇菫榱耸聞?wù)工作負(fù)荷。通過Azure Synapse Analytics中極具彈性的計(jì)算引擎來(lái)訪問你的數(shù)據(jù),使運(yùn)行存儲(chǔ)和計(jì)算的總體成本非常高效。
本地可用的分析、全球分布式多區(qū)域?qū)懭?/strong>
你可以高效地對(duì)Azure Cosmos DB中距離最近的區(qū)域的數(shù)據(jù)副本運(yùn)行分析查詢。Azure Cosmos DB提供了最先進(jìn)的功能,可按主動(dòng)-主動(dòng)的方式運(yùn)行全球分發(fā)的分析工作負(fù)荷和事務(wù)工作負(fù)荷。
為操作數(shù)據(jù)啟用HTAP方案
Synapse Link匯集了Azure Cosmos DB分析存儲(chǔ)和Azure Synapse Analytics運(yùn)行時(shí)支持。通過此集成,你可以構(gòu)建云原生HTAP(混合事務(wù)/分析處理)解決方案,該解決方案基于大型數(shù)據(jù)集的操作數(shù)據(jù)的實(shí)時(shí)更新生成見解。它可解鎖新的業(yè)務(wù)方案,以根據(jù)實(shí)時(shí)趨勢(shì)發(fā)出警報(bào),構(gòu)建準(zhǔn)實(shí)時(shí)儀表板并基于用戶行為生成業(yè)務(wù)體驗(yàn)。
Azure Cosmos DB分析存儲(chǔ)
Azure Cosmos DB分析存儲(chǔ)是Azure Cosmos DB中的操作數(shù)據(jù)的面向列的表示形式。此分析存儲(chǔ)適用于對(duì)大型操作數(shù)據(jù)集進(jìn)行快速且經(jīng)濟(jì)高效的查詢,無(wú)需復(fù)制數(shù)據(jù)和影響事務(wù)工作負(fù)荷的性能。
分析存儲(chǔ)準(zhǔn)實(shí)時(shí)自動(dòng)選擇事務(wù)工作負(fù)荷中的高頻率插入、更新、刪除,作為Azure Cosmos DB的完全托管功能(“自動(dòng)同步”)。無(wú)需更改源或ETL。
若你擁有全局分發(fā)的Azure Cosmos DB帳戶,為容器啟用分析存儲(chǔ)后,它將適用于該帳戶的所有區(qū)域。有關(guān)分析存儲(chǔ)的詳細(xì)信息,請(qǐng)參閱Azure Cosmos DB分析存儲(chǔ)概述一文。
與Azure Synapse Analytics集成
借助Synapse Link,你現(xiàn)在可以直接從Azure Synapse Analytics連接到Azure Cosmos DB容器,并訪問沒有單獨(dú)連接器的分析存儲(chǔ)。Azure Synapse Analytics當(dāng)前支持Synapse與Synapse Apache Spark和無(wú)服務(wù)器SQL池的鏈接。
可以在Azure Synapse Analytics支持的不同分析運(yùn)行時(shí)間內(nèi)以互操作方式同時(shí)從Azure Cosmos DB分析存儲(chǔ)查詢數(shù)據(jù)。不需要其他數(shù)據(jù)轉(zhuǎn)換來(lái)分析操作數(shù)據(jù)??梢允褂靡韵聦?duì)象來(lái)查詢和分析分析存儲(chǔ)數(shù)據(jù):
完全支持Scala、Python、SparkSQL和C#的Synapse Apache Spark。Synapse Spark是數(shù)據(jù)工程和數(shù)據(jù)科學(xué)方案的核心
具有T-sql語(yǔ)言的無(wú)服務(wù)器SQL池和對(duì)熟悉的BI工具的支持(例如,Power BI Premium等)
備注
通過Azure Synapse Analytics,可以同時(shí)訪問Azure Cosmos DB容器中的分析存儲(chǔ)和事務(wù)存儲(chǔ)。但是,如果要對(duì)操作數(shù)據(jù)運(yùn)行大規(guī)模分析或掃描,我們建議你使用分析存儲(chǔ)來(lái)避免對(duì)事務(wù)工作負(fù)荷的性能影響。
備注
可以通過將Azure Cosmos DB容器連接到Azure區(qū)域中的Synapse運(yùn)行時(shí),在該區(qū)域中以較低的延遲運(yùn)行分析。
此集成可為不同用戶啟用以下HTAP方案:
BI工程師,想要對(duì)Power BI報(bào)表建模后將其發(fā)布,以便通過Synapse SQL直接訪問Azure Cosmos DB中的實(shí)時(shí)操作數(shù)據(jù)。
數(shù)據(jù)分析人員,想要通過使用Synapse SQL查詢Azure Cosmos DB容器中的操作數(shù)據(jù)來(lái)從中獲得見解,大規(guī)模讀取數(shù)據(jù)并將這些發(fā)現(xiàn)與其他數(shù)據(jù)源合并。
數(shù)據(jù)科學(xué)家,想要使用Synapse Spark查找一項(xiàng)功能來(lái)改善其模型并在不進(jìn)行復(fù)雜的數(shù)據(jù)工程的情況下訓(xùn)練該模型。他們還可以將模型post推理的結(jié)果寫入Azure Cosmos DB以便通過Spark Synapse對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)評(píng)分。
數(shù)據(jù)工程師,想要無(wú)需手動(dòng)ETL過程即可對(duì)Azure Cosmos DB容器創(chuàng)建SQL或Spark表,以便使數(shù)據(jù)可供使用者訪問。
有關(guān)Azure Cosmos DB的Azure Synapse Analytics運(yùn)行時(shí)支持的詳細(xì)信息,請(qǐng)參閱Azure Synapse Analytics for Cosmos DB支持。
何時(shí)使用Azure Synapse Link for Azure Cosmos DB?
建議在以下情況下使用Synapse Link:
如果你是Azure Cosmos DB客戶,并且想要對(duì)操作數(shù)據(jù)運(yùn)行分析、BI和機(jī)器學(xué)習(xí)。在此類情況下,Synapse Link提供了更集成的分析體驗(yàn),同時(shí)不影響事務(wù)存儲(chǔ)的預(yù)配吞吐量。例如:
如果你現(xiàn)在直接使用單獨(dú)的連接器對(duì)Azure Cosmos DB操作數(shù)據(jù)運(yùn)行分析或BI,或
如果你正在運(yùn)行ETL過程以將操作數(shù)據(jù)提取到單獨(dú)的分析系統(tǒng)中。
在此類情況下,Synapse Link提供了更集成的分析體驗(yàn),同時(shí)不影響事務(wù)存儲(chǔ)的預(yù)配吞吐量。
如果需要傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)要求(例如,高并發(fā)、工作負(fù)荷管理和跨多個(gè)數(shù)據(jù)源的聚合持久性),則不建議使用Synapse Link。有關(guān)詳細(xì)信息,請(qǐng)參閱可由Synapse Link for Azure Cosmos DB提供幫助的常見方案。
限制
適用于Azure Cosmos DB的Azure Synapse鏈接支持適用于MongoDB的SQL API和Azure Cosmos DB API。它不支持Gremlin API、Cassandra API和表API。
只能為新容器啟用分析存儲(chǔ)。若要對(duì)現(xiàn)有容器使用分析存儲(chǔ),可以使用Azure Cosmos DB遷移工具將數(shù)據(jù)從現(xiàn)有容器遷移到新容器??梢栽谛碌暮同F(xiàn)有的Azure Cosmos DB帳戶上啟用Synapse Link。
對(duì)于啟用了分析存儲(chǔ)的容器,目前不支持自動(dòng)備份和還原分析存儲(chǔ)中的數(shù)據(jù)。在數(shù)據(jù)庫(kù)帳戶上啟用Synapse Link后,Azure Cosmos DB會(huì)像往常一樣,繼續(xù)按計(jì)劃的備份間隔以自動(dòng)方式僅對(duì)容器的事務(wù)性存儲(chǔ)中的數(shù)據(jù)執(zhí)行備份。需要特別注意的是,將啟用了分析存儲(chǔ)的容器還原到新帳戶時(shí),將僅使用事務(wù)性存儲(chǔ)來(lái)還原容器,而不會(huì)啟用分析存儲(chǔ)。
當(dāng)前無(wú)法訪問預(yù)配了Synapse SQL的Azure Cosmos DB分析存儲(chǔ)。
當(dāng)前不支持Azure Cosmso DB分析存儲(chǔ)在Azure Synapse Analytics中使用托管專用終結(jié)點(diǎn)的網(wǎng)絡(luò)隔離。
定價(jià)
Azure Synapse Link的計(jì)費(fèi)模型包括使用Azure Cosmos DB分析存儲(chǔ)和Synapse運(yùn)行時(shí)所產(chǎn)生的成本。若要了解詳細(xì)信息,請(qǐng)參閱Azure Cosmos DB分析存儲(chǔ)定價(jià)和Azure Synapse Analytics定價(jià)文章。