Azure Databricks是基于Apache Spark的分析平臺,針對Microsoft Azure云服務平臺進行優(yōu)化。并通過一鍵式設定、順暢工作流程、交互式工作區(qū)等快速又簡單的特性,為數(shù)據(jù)科學家、數(shù)據(jù)工程師、企業(yè)分析師提供前所未有的協(xié)作環(huán)境。2020年10月1日,微軟超高性能企業(yè)級Spark大數(shù)據(jù)分析服務Azure Databricks在中國區(qū)發(fā)布預覽版。
什么是Azure Databricks
Azure Databricks是基于Apache Spark的快速、簡單、協(xié)作型分析服務。使用大數(shù)據(jù)管道時,原始或結(jié)構(gòu)化的數(shù)據(jù)將通過Azure數(shù)據(jù)工廠以批的形式引入Azure,或者通過Kafka、事件中心、IoT中心進行準實時的流式傳輸。此數(shù)據(jù)將駐留在Data Lake(長久存儲)、Azure Blob存儲或Azure Data Lake Storage中。在運行分析工作流的過程中,用戶可以使用Azure Databricks從Azure Blob存儲、Azure Data Lake Storage、Azure Cosmos DB或Azure SQL數(shù)據(jù)倉庫等多個數(shù)據(jù)源讀取數(shù)據(jù),并使用Spark將數(shù)據(jù)轉(zhuǎn)化為前所未有的見解。
Azure Databricks主要功能模塊
借助優(yōu)化的Apache Spark實現(xiàn)大數(shù)據(jù)分析和AI
使用Azure Databricks,即可解鎖所有數(shù)據(jù)的見解并構(gòu)建人工智能(AI)解決方案,在數(shù)分鐘內(nèi)設置Apache Spark?環(huán)境,自動縮放以及在交互式工作區(qū)中協(xié)作共享項目。Azure Databricks支持Python、Scala、R、Java和SQL,以及數(shù)據(jù)科學框架和庫(包括TensorFlow、PyTorch和scikit-learn)。
企業(yè)功能
1、可通過AAD(OAuth)與Azure for Security原生集成
2、優(yōu)化的引擎,提供更強的性能和可擴展性
3、適用于筆記本和API的RBAC(基于角色的訪問控制)
4、自動擴展和終止集群功能
5、可與SQL DW和其他Azure服務原生集成
6、無服務器資源池,可簡化資源管理
環(huán)境優(yōu)化
為了解決其他大數(shù)據(jù)平臺出現(xiàn)的問題,Azure Databricks從一開始就進行了優(yōu)化,重點關注云計算的性能和成本效益。Databricks Runtime為Apache Spark工作組件添加了多項關鍵功能,在Azure上運行時,可將性能提高10-100倍,并降低成本,其中包括:
1、高速連接到Azure存儲服務,例如Azure Blob Store和Azure Data Lake
2、自動擴展和自動終止的Spark集群,以降低成本
3、緩存
4、索引
5、高級查詢優(yōu)化
通過提供一個優(yōu)化的、易于配置的環(huán)境,Azure Databricks為開發(fā)人員提供了一個高性能、高成本效益的平臺,使他們能夠花更多的時間來構(gòu)建應用程序,而減少專注于管理集群和基礎設施的時間。
為何選擇Azure Databricks
開源版本不具備的功能
1、Databricks工作區(qū):交互式數(shù)據(jù)科學與協(xié)作
2、Databricks工作流:生產(chǎn)任務和工作流程自動化
3、Databricks Runtime
4、Databricks I/O(DBIO):優(yōu)化的數(shù)據(jù)訪問層
5、Databricks無服務器:完全托管的自動調(diào)優(yōu)平臺
6、Databricks企業(yè)安全(DBES):端到端的性安全與合規(guī)性
加強生產(chǎn)力
1、快速啟用:只需點擊一下,即可啟動新的Spark環(huán)境。
2、與Power BI的豐富集成能幫助您十分有效地分享見解。
3、利用統(tǒng)一的工作區(qū)幫助分析團隊改善彼此之間協(xié)作。
4、與其余Azure平臺產(chǎn)品服務的原生集成,加快創(chuàng)新速度。
基于最合規(guī)的云平臺而構(gòu)建
1、與Active Directory的內(nèi)置集成可簡化安全性和身份控制。
2、使用顆粒級用戶權(quán)限實現(xiàn)對Azure Databricks的筆記本、集群、作業(yè)和數(shù)據(jù)的訪問控制。
3、提供強大的技術(shù)支持、合規(guī)性和SLA,在可信云平臺上放心構(gòu)建。
無限可擴展
1、可在全球范圍內(nèi)不受技術(shù)限制地進行大規(guī)模運營。
2、使用目前最快的Spark引擎加快數(shù)據(jù)處理速度。
Azure Databricks主要受眾和優(yōu)勢