Google宣布推出Datastream for BigQuery預(yù)覽版,這是一個可以讓用戶將AlloyDB for PostgreSQL、PostgreSQL、MySQL和Oracle等運(yùn)營數(shù)據(jù)庫,順暢無縫復(fù)制資料到Google無服務(wù)器數(shù)據(jù)倉庫BigQuery的服務(wù)。
Google解釋了這項(xiàng)服務(wù)的適用場景,以零售業(yè)為例,每家連鎖分店都有自己的POS和庫存管理系統(tǒng),全天候收集商店交易和庫存資料,但為了要進(jìn)一步分析這些連鎖分店的日常運(yùn)營,提供更多的資料報(bào)表和統(tǒng)計(jì)資料協(xié)助分店運(yùn)營,因此IT部門通常會在晚上設(shè)置批處理流程,以收集和集成分店的所有資料至中央數(shù)據(jù)倉庫,以便來得及在早上的時候,提供準(zhǔn)備好的分析報(bào)表。
由于維護(hù)這個人信息料復(fù)制的程序,需要資料工程團(tuán)隊(duì)付出許多心力,而且隨著分店規(guī)模以及需要處理的資料越來越多,這個負(fù)擔(dān)也會更重,復(fù)制資料時間也需要拉長,導(dǎo)致報(bào)表準(zhǔn)備的時間越來越久。
而Datastream for BigQuery便是要解決這個問題,該服務(wù)可集成數(shù)據(jù)庫、分析和機(jī)器學(xué)習(xí)在同一個平臺中,供企業(yè)以大規(guī)模且高效的方式分析資料,受益于無服務(wù)器和自動擴(kuò)展架構(gòu),Datastream讓用戶能夠簡單地配置ELT(Extract、Load、Transform)工作管線,執(zhí)行低延遲資料復(fù)制,以獲得即時資料分析結(jié)果。
Google提到,因?yàn)锽igQuery的變更資料捕捉技術(shù)(CDC)以及Storage Write API的UPSERT新功能,因此Datastream可以高效地將更新直接從來源系統(tǒng),即時復(fù)制到BigQuery表格中,因此用戶也不需要花費(fèi)資源構(gòu)建工作管線,或是進(jìn)行資料轉(zhuǎn)換等工作。
現(xiàn)在用戶只需要在BigQuery配置來源數(shù)據(jù)庫、連接類型和目的地,接下來Datastream便會處理剩余的工作,包括回填歷史資料,并且在資料更新出現(xiàn)在,持續(xù)地復(fù)制資料,當(dāng)來源資料架構(gòu)出現(xiàn)變化時,Datastream也能自動處理這些更改,將新表格和資料字段加入到BigQuery中。