Google集成BigQuery與Document AI簡(jiǎn)化文件數(shù)據(jù)截取工作

來源：十輪網(wǎng)

作者：十輪網(wǎng)

時(shí)間：2024-01-09

Google現(xiàn)在讓開發(fā)者可以更方便從文件數(shù)據(jù)截取資訊，并用于構(gòu)建新的大型語言模型應(yīng)用程序，這項(xiàng)新功能依賴BigQuery與Document AI集成。

2145_-_add_gen_ai_to_your_apps_with_bigquery_and_document_ai_integration_-_-_cloud.google.com_.jpg

Google現(xiàn)在讓開發(fā)者可以更方便從文件數(shù)據(jù)截取資訊，并用于構(gòu)建新的大型語言模型應(yīng)用程序，這項(xiàng)新功能依賴BigQuery與Document AI集成。此功能允許BigQuery用戶創(chuàng)建Document AI自定義截取器，運(yùn)用基礎(chǔ)模型對(duì)文件和元數(shù)據(jù)進(jìn)行自訂，用戶能夠直接從BigQuery調(diào)用這些自訂模型，實(shí)現(xiàn)從文件中截取并存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)的目標(biāo)。

過去用戶要?jiǎng)?chuàng)建獨(dú)立的Document AI工作管線，需要手動(dòng)管理截取邏輯和模式，因?yàn)槿狈υ募晒δ埽枰约洪_發(fā)定制化基礎(chǔ)設(shè)施，同步和維護(hù)數(shù)據(jù)的一致性，這使得用戶需要投入大量的資源在文件分析上。而現(xiàn)在Google推出BigQuery與Document AI的集成，用戶可以在BigQuery中，創(chuàng)建用于Document AI自定義截取器的遠(yuǎn)程模型，進(jìn)行大規(guī)模文件分析和生成式人工智能應(yīng)用。

首先用戶需要先在Document AI中創(chuàng)建自定義截取器，借由選擇樣本文件，并基于Document AI基礎(chǔ)模型訓(xùn)練截取器模型。而Document AI也提供現(xiàn)成的截取器，可用于處理各種常見文件類型，像是發(fā)票或是身份證件等。

接著，Document AI自定義截取器便可于BigQuery中使用，通過SQL在BigQuery中注冊(cè)遠(yuǎn)程模型，調(diào)用并使用自定義截取器，來分析文件截取相關(guān)字段數(shù)據(jù)。從文件截取出來的資訊，可以進(jìn)行文本分析、摘要生成和創(chuàng)建各種創(chuàng)新應(yīng)用。

BigQuery ML支持訓(xùn)練和部署多種文本模型，可以用來識(shí)別客戶服務(wù)通話中的情緒，或是Python開發(fā)者也可使用BigQuery DataFrames for pandas，和類似scikit-learn的API來分析數(shù)據(jù)。用戶也能運(yùn)用PaLM 2大型語言模型對(duì)文件進(jìn)行摘要，甚至將文件元數(shù)據(jù)和存儲(chǔ)在BigQuery表格中的其他結(jié)構(gòu)化數(shù)據(jù)集成，開發(fā)創(chuàng)新應(yīng)用。

Google

上一篇：蘋果為減少《數(shù)字市場(chǎng)法案》影響，在歐洲宣稱運(yùn)營5家應(yīng)用商店

原文鏈接：點(diǎn)擊前往 >

版權(quán)說明：本文內(nèi)容來自于十輪網(wǎng)，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán)，請(qǐng)聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章