Azure Databricks是基于Apache Spark的分析平臺(tái),針對(duì)Microsoft Azure云服務(wù)平臺(tái)進(jìn)行優(yōu)化。并通過一鍵式設(shè)定、順暢工作流程、交互式工作區(qū)等快速又簡(jiǎn)單的特性,為數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師、企業(yè)分析師提供前所未有的協(xié)作環(huán)境。2020年10月1日,微軟超高性能企業(yè)級(jí)Spark大數(shù)據(jù)分析服務(wù)Azure Databricks在中國(guó)區(qū)發(fā)布預(yù)覽版。
什么是Azure Databricks
Azure Databricks是基于Apache Spark的快速、簡(jiǎn)單、協(xié)作型分析服務(wù)。使用大數(shù)據(jù)管道時(shí),原始或結(jié)構(gòu)化的數(shù)據(jù)將通過Azure數(shù)據(jù)工廠以批的形式引入Azure,或者通過Kafka、事件中心、IoT中心進(jìn)行準(zhǔn)實(shí)時(shí)的流式傳輸。此數(shù)據(jù)將駐留在Data Lake(長(zhǎng)久存儲(chǔ))、Azure Blob存儲(chǔ)或Azure Data Lake Storage中。在運(yùn)行分析工作流的過程中,用戶可以使用Azure Databricks從Azure Blob存儲(chǔ)、Azure Data Lake Storage、Azure Cosmos DB或Azure SQL數(shù)據(jù)倉庫等多個(gè)數(shù)據(jù)源讀取數(shù)據(jù),并使用Spark將數(shù)據(jù)轉(zhuǎn)化為前所未有的見解。
Azure Databricks主要功能模塊
借助優(yōu)化的Apache Spark實(shí)現(xiàn)大數(shù)據(jù)分析和AI
使用Azure Databricks,即可解鎖所有數(shù)據(jù)的見解并構(gòu)建人工智能(AI)解決方案,在數(shù)分鐘內(nèi)設(shè)置Apache Spark?環(huán)境,自動(dòng)縮放以及在交互式工作區(qū)中協(xié)作共享項(xiàng)目。Azure Databricks支持Python、Scala、R、Java和SQL,以及數(shù)據(jù)科學(xué)框架和庫(包括TensorFlow、PyTorch和scikit-learn)。
企業(yè)功能
1、可通過AAD(OAuth)與Azure for Security原生集成
2、優(yōu)化的引擎,提供更強(qiáng)的性能和可擴(kuò)展性
3、適用于筆記本和API的RBAC(基于角色的訪問控制)
4、自動(dòng)擴(kuò)展和終止集群功能
5、可與SQL DW和其他Azure服務(wù)原生集成
6、無服務(wù)器資源池,可簡(jiǎn)化資源管理
環(huán)境優(yōu)化
為了解決其他大數(shù)據(jù)平臺(tái)出現(xiàn)的問題,Azure Databricks從一開始就進(jìn)行了優(yōu)化,重點(diǎn)關(guān)注云計(jì)算的性能和成本效益。Databricks Runtime為Apache Spark工作組件添加了多項(xiàng)關(guān)鍵功能,在Azure上運(yùn)行時(shí),可將性能提高10-100倍,并降低成本,其中包括:
1、高速連接到Azure存儲(chǔ)服務(wù),例如Azure Blob Store和Azure Data Lake
2、自動(dòng)擴(kuò)展和自動(dòng)終止的Spark集群,以降低成本
3、緩存
4、索引
5、高級(jí)查詢優(yōu)化
通過提供一個(gè)優(yōu)化的、易于配置的環(huán)境,Azure Databricks為開發(fā)人員提供了一個(gè)高性能、高成本效益的平臺(tái),使他們能夠花更多的時(shí)間來構(gòu)建應(yīng)用程序,而減少專注于管理集群和基礎(chǔ)設(shè)施的時(shí)間。
為何選擇Azure Databricks
開源版本不具備的功能
1、Databricks工作區(qū):交互式數(shù)據(jù)科學(xué)與協(xié)作
2、Databricks工作流:生產(chǎn)任務(wù)和工作流程自動(dòng)化
3、Databricks Runtime
4、Databricks I/O(DBIO):優(yōu)化的數(shù)據(jù)訪問層
5、Databricks無服務(wù)器:完全托管的自動(dòng)調(diào)優(yōu)平臺(tái)
6、Databricks企業(yè)安全(DBES):端到端的性安全與合規(guī)性
加強(qiáng)生產(chǎn)力
1、快速啟用:只需點(diǎn)擊一下,即可啟動(dòng)新的Spark環(huán)境。
2、與Power BI的豐富集成能幫助您十分有效地分享見解。
3、利用統(tǒng)一的工作區(qū)幫助分析團(tuán)隊(duì)改善彼此之間協(xié)作。
4、與其余Azure平臺(tái)產(chǎn)品服務(wù)的原生集成,加快創(chuàng)新速度。
基于最合規(guī)的云平臺(tái)而構(gòu)建
1、與Active Directory的內(nèi)置集成可簡(jiǎn)化安全性和身份控制。
2、使用顆粒級(jí)用戶權(quán)限實(shí)現(xiàn)對(duì)Azure Databricks的筆記本、集群、作業(yè)和數(shù)據(jù)的訪問控制。
3、提供強(qiáng)大的技術(shù)支持、合規(guī)性和SLA,在可信云平臺(tái)上放心構(gòu)建。
無限可擴(kuò)展
1、可在全球范圍內(nèi)不受技術(shù)限制地進(jìn)行大規(guī)模運(yùn)營(yíng)。
2、使用目前最快的Spark引擎加快數(shù)據(jù)處理速度。
Azure Databricks主要受眾和優(yōu)勢(shì)