超高性能Spark 大數(shù)據(jù)分析平臺:Azure Databricks 推出公開預(yù)覽版啦!

來源: MSReactor
作者:MSReactor
時間:2020-10-14
17046
Azure Databricks是基于Apache Spark的分析平臺,針對Microsoft Azure云服務(wù)平臺進行優(yōu)化。并通過一鍵式設(shè)定、順暢工作流程、交互式工作區(qū)等快速又簡單的特性,為數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師、企業(yè)分析師提供前所未有的協(xié)作環(huán)境。

Azure Databricks是基于Apache Spark的分析平臺,針對Microsoft Azure云服務(wù)平臺進行優(yōu)化。并通過一鍵式設(shè)定、順暢工作流程、交互式工作區(qū)等快速又簡單的特性,為數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師、企業(yè)分析師提供前所未有的協(xié)作環(huán)境。2020年10月1日,微軟超高性能企業(yè)級Spark大數(shù)據(jù)分析服務(wù)Azure Databricks在中國區(qū)發(fā)布預(yù)覽版。

什么是Azure Databricks

Azure Databricks是基于Apache Spark的快速、簡單、協(xié)作型分析服務(wù)。使用大數(shù)據(jù)管道時,原始或結(jié)構(gòu)化的數(shù)據(jù)將通過Azure數(shù)據(jù)工廠以批的形式引入Azure,或者通過Kafka、事件中心、IoT中心進行準(zhǔn)實時的流式傳輸。此數(shù)據(jù)將駐留在Data Lake(長久存儲)、Azure Blob存儲或Azure Data Lake Storage中。在運行分析工作流的過程中,用戶可以使用Azure Databricks從Azure Blob存儲、Azure Data Lake Storage、Azure Cosmos DB或Azure SQL數(shù)據(jù)倉庫等多個數(shù)據(jù)源讀取數(shù)據(jù),并使用Spark將數(shù)據(jù)轉(zhuǎn)化為前所未有的見解。

640.webp (1).jpg

Azure Databricks主要功能模塊

借助優(yōu)化的Apache Spark實現(xiàn)大數(shù)據(jù)分析和AI

使用Azure Databricks,即可解鎖所有數(shù)據(jù)的見解并構(gòu)建人工智能(AI)解決方案,在數(shù)分鐘內(nèi)設(shè)置Apache Spark?環(huán)境,自動縮放以及在交互式工作區(qū)中協(xié)作共享項目。Azure Databricks支持Python、Scala、R、Java和SQL,以及數(shù)據(jù)科學(xué)框架和庫(包括TensorFlow、PyTorch和scikit-learn)。

企業(yè)功能

1、可通過AAD(OAuth)與Azure for Security原生集成

2、優(yōu)化的引擎,提供更強的性能和可擴展性

3、適用于筆記本和API的RBAC(基于角色的訪問控制)

4、自動擴展和終止集群功能

5、可與SQL DW和其他Azure服務(wù)原生集成

6、無服務(wù)器資源池,可簡化資源管理

640.webp (2).jpg

環(huán)境優(yōu)化

為了解決其他大數(shù)據(jù)平臺出現(xiàn)的問題,Azure Databricks從一開始就進行了優(yōu)化,重點關(guān)注云計算的性能和成本效益。Databricks Runtime為Apache Spark工作組件添加了多項關(guān)鍵功能,在Azure上運行時,可將性能提高10-100倍,并降低成本,其中包括:

1、高速連接到Azure存儲服務(wù),例如Azure Blob Store和Azure Data Lake

2、自動擴展和自動終止的Spark集群,以降低成本

3、緩存

4、索引

5、高級查詢優(yōu)化

通過提供一個優(yōu)化的、易于配置的環(huán)境,Azure Databricks為開發(fā)人員提供了一個高性能、高成本效益的平臺,使他們能夠花更多的時間來構(gòu)建應(yīng)用程序,而減少專注于管理集群和基礎(chǔ)設(shè)施的時間。

為何選擇Azure Databricks

開源版本不具備的功能

1、Databricks工作區(qū):交互式數(shù)據(jù)科學(xué)與協(xié)作

2、Databricks工作流:生產(chǎn)任務(wù)和工作流程自動化

3、Databricks Runtime

4、Databricks I/O(DBIO):優(yōu)化的數(shù)據(jù)訪問層

5、Databricks無服務(wù)器:完全托管的自動調(diào)優(yōu)平臺

6、Databricks企業(yè)安全(DBES):端到端的性安全與合規(guī)性

加強生產(chǎn)力

1、快速啟用:只需點擊一下,即可啟動新的Spark環(huán)境。

2、與Power BI的豐富集成能幫助您十分有效地分享見解。

3、利用統(tǒng)一的工作區(qū)幫助分析團隊改善彼此之間協(xié)作。

4、與其余Azure平臺產(chǎn)品服務(wù)的原生集成,加快創(chuàng)新速度。

基于最合規(guī)的云平臺而構(gòu)建

1、與Active Directory的內(nèi)置集成可簡化安全性和身份控制。

2、使用顆粒級用戶權(quán)限實現(xiàn)對Azure Databricks的筆記本、集群、作業(yè)和數(shù)據(jù)的訪問控制。

3、提供強大的技術(shù)支持、合規(guī)性和SLA,在可信云平臺上放心構(gòu)建。

無限可擴展

1、可在全球范圍內(nèi)不受技術(shù)限制地進行大規(guī)模運營。

2、使用目前最快的Spark引擎加快數(shù)據(jù)處理速度。

640 (5).png

Azure Databricks主要受眾和優(yōu)勢

立即登錄,閱讀全文
版權(quán)說明:
本文內(nèi)容來自于MSReactor,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開掃一掃, 關(guān)注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家