Google在其云計算數(shù)據(jù)倉庫BigQuery加入搜索索引以及相關(guān)的SQL搜索函數(shù),讓用戶可以使用標準的BigQuery SQL,高速搜索非結(jié)構(gòu)化文本和半結(jié)構(gòu)JSON文件中,所存在的唯一資料元素。搜索索引為無服務(wù)器服務(wù),并且完全由BigQuery管理,只要資料在BigQuery中可以使用,用戶就能利用新的搜索功能進行資料檢索。
Google表示,這項BigQuery新功能讓用戶可以在單一資料平臺中,對欄式存儲和文本進行搜索,可在用戶查詢資料列,而非聚合資料時,發(fā)揮極大的性能和成本效益。像是識別特定用戶相關(guān)聯(lián)的資料列,以用于GDPR報告,或是從文本中尋找特定錯誤碼,都可以利用該功能快速完成搜索工作。
BigQuery搜索索引功能,能夠避免觸發(fā)繁重的表格掃描工作,官方解釋,搜索索引主要采用反向索引(Reverse Index)技術(shù)來加速資料點的查詢。BigQuery通過反向索引,能夠深入了解特定資料元素在表格底層存儲的位置,因為資料經(jīng)過標記,因此在區(qū)分大小寫等細微差異的文本搜索上,比SQL具有更大的靈活性。
BigQuery現(xiàn)在能對超大量的文本資料進行搜索,像是用戶可以將本地端、多云平臺和Kubernetes中的日志記錄,全部匯集到BigQuery中,快速地查詢特定資料元素。與其他的BigQuery功能相同,搜索索引是全托管功能,一旦用戶創(chuàng)建了索引,BigQuery便會在后臺處理剩余的工作。
同時,搜索索引也能夠搜索半結(jié)構(gòu)化資料,Google提到,安全日志來自多個來源,具有不同的架構(gòu)、類型,而用戶現(xiàn)在可以將這些日志存儲成JSON,并且在BigQuery中使用SQL進行查詢。
BigQuery搜索索引功能不額外收取費用,但是用戶需要對索引所使用的存儲支付費用,Google表示,適當?shù)氖褂盟阉魉饕δ?,查詢掃描的資料將大幅減少,進而節(jié)省成本。Google舉例,要從PB級的資料中,刪除所有Bob的資料,過去用戶可能需要掃描TB大小的表格,才能找到其中10筆包含Bob的記錄,而現(xiàn)在通過在BigQuery表格增加索引,就僅會觸及包含Bob的資料列子集,因而大幅降低成本。