微軟推出一個稱為Fabric的端到端統(tǒng)一分析平臺,其集成了各種資料和分析工具,將Azure Data Factory、Azure Synapse Analytics和Power BI技術(shù)都匯集到同一個平臺中,并且以多云資料湖OneLake存積分析服務(wù)需要用到的所有資料。
微軟強調(diào)Fabric是一個完整的分析平臺,所有資料分析項目需要用到的工具,全部被集成到同一個產(chǎn)品。Fabric針對團隊中不同的角色,提供特定的功能體驗,因此資料工程師、數(shù)據(jù)科學(xué)家甚至是業(yè)務(wù),都能夠以熟悉的工作方式使用Fabric。Fabric的核心工作負載包括Data Factory、Synapse Data Engineering、Synapse Data Warehousing、Synapse Real-Time Analytics和Power BI等。
這些核心工作負載需要用到的資料,皆來自多云資料湖OneLake,微軟解釋,這樣的概念就與Microsoft 365應(yīng)用程序都會連接到OneDrive相同,資料會在同一處被組織并自動索引,供后續(xù)探索、共享、治理、法遵目的使用。
每個Fabric租戶皆使用OneLake,以避免因不同用戶配置產(chǎn)生資料孤島,OneLake向所有用戶提供統(tǒng)一的存儲系統(tǒng),并且統(tǒng)一應(yīng)用策略和安全配置,進而使資料能夠更簡單地探索和共享。
在API層,OneLake創(chuàng)建在Azure Data Lake Storage Gen2(ADLSg2)之上,因此可接上ADLSg2既有的應(yīng)用程序、工具和開發(fā)人員生態(tài)系。OneLake有一個稱為Shortcuts的重要功能,能夠虛擬化ADLSg2、Amazon S3和Google云計算存儲的資料湖,供開發(fā)人員跨云組合和分析資料,并讓用戶和應(yīng)用程序更簡單地共享資料。
OneLake采用以Parquet為基礎(chǔ)的開源文件格式Delta,而這也是Fabric所有工作負載默認使用的格式,因該旦資料被加載到OneLake中,所有工作負載就可直接操作該資料,不需要執(zhí)行額外的截取工作。
Fabric還對OneLake應(yīng)用通用安全模型,所有引擎在處理查詢和執(zhí)行任務(wù)時,都將統(tǒng)一受該模型控制。Fabric大量集成Azure OpenAI服務(wù)Copilot,使用戶可以通過自然語言,創(chuàng)建資料流和資料工作管線,甚至生成程序代碼和構(gòu)建機器模型等工作。