超高性能Spark 大數(shù)據(jù)分析平臺:Azure Databricks 推出公開預覽版啦!

來源: MSReactor
作者:MSReactor
時間:2020-10-14
17021
Azure Databricks是基于Apache Spark的分析平臺,針對Microsoft Azure云服務平臺進行優(yōu)化。并通過一鍵式設定、順暢工作流程、交互式工作區(qū)等快速又簡單的特性,為數(shù)據(jù)科學家、數(shù)據(jù)工程師、企業(yè)分析師提供前所未有的協(xié)作環(huán)境。

Azure Databricks是基于Apache Spark的分析平臺,針對Microsoft Azure云服務平臺進行優(yōu)化。并通過一鍵式設定、順暢工作流程、交互式工作區(qū)等快速又簡單的特性,為數(shù)據(jù)科學家、數(shù)據(jù)工程師、企業(yè)分析師提供前所未有的協(xié)作環(huán)境。2020年10月1日,微軟超高性能企業(yè)級Spark大數(shù)據(jù)分析服務Azure Databricks在中國區(qū)發(fā)布預覽版。

什么是Azure Databricks

Azure Databricks是基于Apache Spark的快速、簡單、協(xié)作型分析服務。使用大數(shù)據(jù)管道時,原始或結(jié)構(gòu)化的數(shù)據(jù)將通過Azure數(shù)據(jù)工廠以批的形式引入Azure,或者通過Kafka、事件中心、IoT中心進行準實時的流式傳輸。此數(shù)據(jù)將駐留在Data Lake(長久存儲)、Azure Blob存儲或Azure Data Lake Storage中。在運行分析工作流的過程中,用戶可以使用Azure Databricks從Azure Blob存儲、Azure Data Lake Storage、Azure Cosmos DB或Azure SQL數(shù)據(jù)倉庫等多個數(shù)據(jù)源讀取數(shù)據(jù),并使用Spark將數(shù)據(jù)轉(zhuǎn)化為前所未有的見解。

640.webp (1).jpg

Azure Databricks主要功能模塊

借助優(yōu)化的Apache Spark實現(xiàn)大數(shù)據(jù)分析和AI

使用Azure Databricks,即可解鎖所有數(shù)據(jù)的見解并構(gòu)建人工智能(AI)解決方案,在數(shù)分鐘內(nèi)設置Apache Spark?環(huán)境,自動縮放以及在交互式工作區(qū)中協(xié)作共享項目。Azure Databricks支持Python、Scala、R、Java和SQL,以及數(shù)據(jù)科學框架和庫(包括TensorFlow、PyTorch和scikit-learn)。

企業(yè)功能

1、可通過AAD(OAuth)與Azure for Security原生集成

2、優(yōu)化的引擎,提供更強的性能和可擴展性

3、適用于筆記本和API的RBAC(基于角色的訪問控制)

4、自動擴展和終止集群功能

5、可與SQL DW和其他Azure服務原生集成

6、無服務器資源池,可簡化資源管理

640.webp (2).jpg

環(huán)境優(yōu)化

為了解決其他大數(shù)據(jù)平臺出現(xiàn)的問題,Azure Databricks從一開始就進行了優(yōu)化,重點關注云計算的性能和成本效益。Databricks Runtime為Apache Spark工作組件添加了多項關鍵功能,在Azure上運行時,可將性能提高10-100倍,并降低成本,其中包括:

1、高速連接到Azure存儲服務,例如Azure Blob Store和Azure Data Lake

2、自動擴展和自動終止的Spark集群,以降低成本

3、緩存

4、索引

5、高級查詢優(yōu)化

通過提供一個優(yōu)化的、易于配置的環(huán)境,Azure Databricks為開發(fā)人員提供了一個高性能、高成本效益的平臺,使他們能夠花更多的時間來構(gòu)建應用程序,而減少專注于管理集群和基礎設施的時間。

為何選擇Azure Databricks

開源版本不具備的功能

1、Databricks工作區(qū):交互式數(shù)據(jù)科學與協(xié)作

2、Databricks工作流:生產(chǎn)任務和工作流程自動化

3、Databricks Runtime

4、Databricks I/O(DBIO):優(yōu)化的數(shù)據(jù)訪問層

5、Databricks無服務器:完全托管的自動調(diào)優(yōu)平臺

6、Databricks企業(yè)安全(DBES):端到端的性安全與合規(guī)性

加強生產(chǎn)力

1、快速啟用:只需點擊一下,即可啟動新的Spark環(huán)境。

2、與Power BI的豐富集成能幫助您十分有效地分享見解。

3、利用統(tǒng)一的工作區(qū)幫助分析團隊改善彼此之間協(xié)作。

4、與其余Azure平臺產(chǎn)品服務的原生集成,加快創(chuàng)新速度。

基于最合規(guī)的云平臺而構(gòu)建

1、與Active Directory的內(nèi)置集成可簡化安全性和身份控制。

2、使用顆粒級用戶權(quán)限實現(xiàn)對Azure Databricks的筆記本、集群、作業(yè)和數(shù)據(jù)的訪問控制。

3、提供強大的技術(shù)支持、合規(guī)性和SLA,在可信云平臺上放心構(gòu)建。

無限可擴展

1、可在全球范圍內(nèi)不受技術(shù)限制地進行大規(guī)模運營。

2、使用目前最快的Spark引擎加快數(shù)據(jù)處理速度。

640 (5).png

Azure Databricks主要受眾和優(yōu)勢

立即登錄,閱讀全文
版權(quán)說明:
本文內(nèi)容來自于MSReactor,本站不擁有所有權(quán),不承擔相關法律責任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務商推薦
更多
個人VIP