加速你的大數據分析腳步!用Google Cloud一條龍完成ETL到AI應用

來源:十輪網
作者:十輪網
時間:2022-08-29
2404
在消費者接觸點碎片化且市場需求變化迅速的現在,如何快速地搜集、集成、分析及應用數據是企業(yè)能否搶得先機的關鍵!

523029a5682bb1f17099169248d50fc7.jpg

在消費者接觸點碎片化且市場需求變化迅速的現在,如何快速地搜集、集成、分析及應用數據是企業(yè)能否搶得先機的關鍵!常年榮獲Google Cloud合作伙伴獎的Cloud Ace,此次規(guī)整了可高效實踐四大數據分析步驟的Google Cloud Platform(GCP)工具,及不同需求下的搭配策略,希望協(xié)助企業(yè)在更短的時間內最大化數據價值。

913902498ab68f1ab7c364cd39370fad.jpg

首先,我們最初拿到的資料集通常是原始資料(Raw Data),而這些Raw Data是不能被拿去做任何分析的!因為未經處理的Raw Data常會有資料格式不正確、不一致、空值很多或編碼錯誤等問題,也就是所謂的臟數據。因此,在執(zhí)行大數據分析時,資料前處理往往會花費許多時間,通過了解整份資料每個字段所代表的意義,進而根據這些字段決定該如何處理與清洗,讓整份資料集變成一份可分析的資料,步驟雖繁瑣但也至關重要。

a377de34a2d463360a124c6151f3f828.jpg

圖片來源:freepik

資料前處理其實就是大家耳熟能詳的ETL(Extract,Transform,Load),在GCP上,除了可單純使用BigQuery,還可再搭配Cloud Dataflow與Cloud Pub/Sub。針對即時資料(Streaming Data),資料產生時會觸發(fā)Cloud Pub/Sub并立即通過Cloud Dataflow加以處理。而針對批次資料,則可通過外部工具或自行撰寫的調度程序,將資料發(fā)送到Cloud Storage(GCS)后,再由Cloud Dataflow進行資料處理(詳見下圖)。

2b265b96c0927e5a4cabe06647ba2d5f.jpg

其中Cloud Dataflow屬于全托管的資料處理服務,不僅可自動安排資料處理流程、部署及管理資源處理作業(yè),還可借由水平調度工作站資源,提高資源使用率以符合成本效益。另外諸如Dataprep、Dataproc和Data Fusion,也都是GCP上實用的資料處理工具,下面簡單介紹這三項工具的用途。

首先,Dataprep可通過圖形接口(無需編寫程序代碼)瀏覽、清理及準備相關資料(結構化與非結構化資料),也能處理任何規(guī)模的資料,自動偵測結構定義、資料類型及異常(如缺值、離群值和重復值),此外還會建議及預測最合適的資料轉換作業(yè)。而Dataproc則像是GCP上的“全托管式”Apache Hadoop、Spark集群。最后,Data Fusion和Dataprep一樣提供圖形接口,用戶無需編寫程序代碼就可部署ETL/ELT資料渠道(Data Pipeline)。

通過GCP完成自動化處理與清洗資料后,就可以將這些干凈的資料導入數據倉庫(Data Warehouse)中,也就是ETL中的L(Load)。有人也許會問,為什么不直接把Raw Data放入數據倉庫清洗后再做分析呢?原因其實很簡單,因為數據倉庫主要是存放干凈、Schema一致(準備被分析)的資料;資料湖(Data Lake)才主要用來存放來源不同的Raw Data,保留資料原始格式。所以數據倉庫基本上只負責分析而不負責清洗。

c515d7d5b31c3dc2e65c3a776ea6526a.jpg

圖片來源:pixabay

在GCP上,GCS及BigQuery是兩大最常用的資料存儲服務。通常,GCS會作為Data Lake使用;BigQuery則作為數據倉庫使用。其中BigQuery屬于無服務器服務(Serverless Service),不僅容易管理,還具備SQL查詢接口,此外也支持即時(Streaming pipeline)或批次(Batch pipeline)的資料導入。

有干凈的資料存儲在數據倉庫后就可正式開始分析了!如果不是太復雜的分析,可直接利用BigQuery的SQL查詢接口分析資料,或使用標準SQL語法創(chuàng)建或執(zhí)行機器學習(Mechine Learning,ML)模型。另外,前面提到的資料處理工具Dataflow和Dataproc,也都能作為資料分析的輔助。Dataflow有即時AI功能,可構建各種智能解決方案,包含預測分析、異常偵測、即時個性化和其他高端分析用途等。而Dataproc則可通過Apache Spark ML執(zhí)行機器學習,或搭配BigQuery進行分析。

4ff90ade69b294e0e8aa8f958f74a596.jpg

圖片來源:pixabay

最后,GCP也有推出預測分析所需的相關服務,除了上述所提的BigQuery ML,Vertex AI與AutoML的搭配也很推薦!因為我們不用會寫Code,就可快速創(chuàng)建與訓練模型。如要以自訂工具創(chuàng)建ML模型,也能用少少的Code訓練出好模型,使用門檻低之外成效也很顯著。

最后,在資料可視化上最常使用的就是Data Studio。易于理解的互動式Dashboard圖像報表讓我們可以在一份報告中即時比較、過濾和組織所需要的確切資料。另外,Data Studio可連接的數據源端也很豐富,除了Google本身的BigQuery、Cloud SQL和Google Sheet,也支持AWS的Redshift,加上可以免費使用,是企業(yè)能以高效低成本的方式實現Business Intelligence的有力幫手。

064c3371da5c2c6d35be6478df8e4a2f.jpg

Data Studio接口,截屏自:Google Data Studio官網|2022 Google

立即登錄,閱讀全文
原文鏈接:點擊前往 >
版權說明:本文內容來自于十輪網,本站不擁有所有權,不承擔相關法律責任。文章內容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權,請聯系管理員(zzx@kchuhai.com)刪除!
優(yōu)質服務商推薦
更多
掃碼登錄
打開掃一掃, 關注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務合作
商務合作
投稿采訪
投稿采訪
出海管家
出海管家