Google宣布推出Datastream for BigQuery預覽版,這是一個可以讓用戶將AlloyDB for PostgreSQL、PostgreSQL、MySQL和Oracle等運營數(shù)據(jù)庫,順暢無縫復制資料到Google無服務器數(shù)據(jù)倉庫BigQuery的服務。
Google解釋了這項服務的適用場景,以零售業(yè)為例,每家連鎖分店都有自己的POS和庫存管理系統(tǒng),全天候收集商店交易和庫存資料,但為了要進一步分析這些連鎖分店的日常運營,提供更多的資料報表和統(tǒng)計資料協(xié)助分店運營,因此IT部門通常會在晚上設置批處理流程,以收集和集成分店的所有資料至中央數(shù)據(jù)倉庫,以便來得及在早上的時候,提供準備好的分析報表。
由于維護這個人信息料復制的程序,需要資料工程團隊付出許多心力,而且隨著分店規(guī)模以及需要處理的資料越來越多,這個負擔也會更重,復制資料時間也需要拉長,導致報表準備的時間越來越久。
而Datastream for BigQuery便是要解決這個問題,該服務可集成數(shù)據(jù)庫、分析和機器學習在同一個平臺中,供企業(yè)以大規(guī)模且高效的方式分析資料,受益于無服務器和自動擴展架構,Datastream讓用戶能夠簡單地配置ELT(Extract、Load、Transform)工作管線,執(zhí)行低延遲資料復制,以獲得即時資料分析結果。
Google提到,因為BigQuery的變更資料捕捉技術(CDC)以及Storage Write API的UPSERT新功能,因此Datastream可以高效地將更新直接從來源系統(tǒng),即時復制到BigQuery表格中,因此用戶也不需要花費資源構建工作管線,或是進行資料轉(zhuǎn)換等工作。
現(xiàn)在用戶只需要在BigQuery配置來源數(shù)據(jù)庫、連接類型和目的地,接下來Datastream便會處理剩余的工作,包括回填歷史資料,并且在資料更新出現(xiàn)在,持續(xù)地復制資料,當來源資料架構出現(xiàn)變化時,Datastream也能自動處理這些更改,將新表格和資料字段加入到BigQuery中。