Google云計算推出可用Hive訪問BigQuery數(shù)據(jù)的開源連接器

來源:十輪網(wǎng)
作者:十輪網(wǎng)
時間:2023-07-05
3212
Google云計算發(fā)布可以連接Apache Hive與BigQuery的連接器,使得Hive工作負(fù)載現(xiàn)在也可以讀取和寫入BigQuery與BigLake表格,也就是說,Hive-BigQuery連接器提供了另一個Hive搬遷到BigQuery的解決方案,即便用戶已經(jīng)將數(shù)據(jù)搬遷到BigQuery或BigLake,仍然可以利用HiveQL方言和Hive執(zhí)行引擎執(zhí)行查詢。

the_hive-bigquery_connector_is_ga_google_cloud_blog.jpg

Google云計算發(fā)布可以連接Apache Hive與BigQuery的連接器,使得Hive工作負(fù)載現(xiàn)在也可以讀取和寫入BigQuery與BigLake表格,也就是說,Hive-BigQuery連接器提供了另一個Hive搬遷到BigQuery的解決方案,即便用戶已經(jīng)將數(shù)據(jù)搬遷到BigQuery或BigLake,仍然可以利用HiveQL方言和Hive執(zhí)行引擎執(zhí)行查詢。

Apache Hive是一個開源的分布式數(shù)據(jù)倉庫系統(tǒng),用于處理存儲在Hadoop中的結(jié)構(gòu)化數(shù)據(jù),開發(fā)人員不需要了解和編寫復(fù)雜的MapReduce任務(wù),可以使用類似SQL語言的HiveQL查詢數(shù)據(jù)。而之所以Google要開發(fā)Hive-BigQuery連接器,是因為部分用戶在搬遷Hive到BigQuery數(shù)據(jù)倉庫時遭遇障礙,而Hive-BigQuery連接器則可提供更靈活的搬遷選擇。

Hive-BigQuery連接器實例了Hive StorageHandler API,可集成Hive工作負(fù)載和BigQuery、BigLake表格,Hive的執(zhí)行引擎會處理聚合和整合等數(shù)據(jù)操作,而與BigQuery的數(shù)據(jù)層的所有互動,則是由連接器管理。

Google提到,Hive原本就是熱門的開源數(shù)據(jù)倉庫之一,過去使用本地HDFS當(dāng)作專有數(shù)據(jù)存儲層,而現(xiàn)在逐漸發(fā)展到了云計算存儲服務(wù)。這個新的連接器,可以將Hive和原生云計算存儲BigQuery集成在一起,進(jìn)而簡化搬遷工作。

利用Hive-BigQuery連接器,用戶可以在批次搬遷的過程,維持操作的連續(xù)性。在過程中,原始的Hive查詢能夠通過連接器訪問數(shù)據(jù),而用戶也可以逐漸轉(zhuǎn)換使用BigQuery的SQL方言,待轉(zhuǎn)換完成后,用戶便可以完全停用Hive。

此外,用戶還可以同時使用Hive和BigQuery,主要以Hive處理工作負(fù)載,并僅將BigQuery用于特定任務(wù),或是也可以繼續(xù)使用Hive,并且在云計算存儲采用Avro、Parquet或ORC等開源軟件格式,用戶可以使用Hive的SQL方言執(zhí)行和處理查詢,以連接器使用BigLake和BigQuery的特有功能,像是緩存查詢性能的元數(shù)據(jù)、應(yīng)用欄級訪問控制,甚至是數(shù)據(jù)遺失防護(hù)(DLP)等安全和治理功能。

立即登錄,閱讀全文
原文鏈接:點擊前往 >
版權(quán)說明:本文內(nèi)容來自于十輪網(wǎng),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多