臉書開發(fā)了一個(gè)經(jīng)預(yù)訓(xùn)練的模型TaBERT,可以理解自然語(yǔ)言的句子,并且從表格查詢結(jié)果,以回答自然語(yǔ)言句子的提問,TaBERT能夠回答像是“哪個(gè)國(guó)家的GDP最高?”這類的問題。研究人員提到,TaBERT是第一個(gè)跨結(jié)構(gòu)化與非結(jié)構(gòu)化資料的預(yù)訓(xùn)練方法,克服了查詢對(duì)應(yīng)到數(shù)據(jù)庫(kù)表格結(jié)構(gòu)的挑戰(zhàn)。
自然語(yǔ)言處理的改進(jìn),無論是網(wǎng)絡(luò)搜索還是人工智能助理的查詢,都能擁有更好的人機(jī)交互體驗(yàn),而大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型,在近期機(jī)器理解自然語(yǔ)言文本,扮演了重要的角色。TaBERT則是運(yùn)用了預(yù)訓(xùn)練技術(shù),連接自然語(yǔ)言理解和結(jié)構(gòu)化資料查詢,研究人員提到,TaBERT可以讓數(shù)字助理更精確地回應(yīng)“下午的氣溫幾度?”和“太平洋西北地區(qū)有多少人口?”等問題,因?yàn)門aBERT可從各種數(shù)據(jù)庫(kù)或是表格中找到答案。
臉書使用了2,600萬張表格和關(guān)聯(lián)的英文句子來訓(xùn)練TaBERT,研究人員表示,先前的預(yù)訓(xùn)練語(yǔ)言模型,都僅使用自由格式的自然語(yǔ)言文本訓(xùn)練模型,而這讓模型僅能夠處理自然語(yǔ)言格式的任務(wù),但并無法處理同時(shí)需要對(duì)自然語(yǔ)言和數(shù)據(jù)庫(kù)進(jìn)行推理的問題。
臉書以兩個(gè)常用的基準(zhǔn)資料集進(jìn)行實(shí)驗(yàn),分別是用于監(jiān)督式文本轉(zhuǎn)SQL任務(wù)的Spider資料集,以及弱監(jiān)督式解析任務(wù)的WikiTableQuestions資料集,臉書提到,弱監(jiān)督式學(xué)習(xí)會(huì)比監(jiān)督式學(xué)習(xí)更具挑戰(zhàn)性,因?yàn)榻馕銎鳠o法取得標(biāo)簽查詢,而且必需要探索非常大的查詢搜索空間。實(shí)驗(yàn)結(jié)果顯示,無論是弱監(jiān)督式或是監(jiān)督式任務(wù),TaBERT的結(jié)果都更好,而且也證明使用表格和語(yǔ)言資料進(jìn)行預(yù)訓(xùn)練,是可行且有效的方法。
TaBERT是以語(yǔ)言處理模型BERT作為基礎(chǔ),研究人員把自然語(yǔ)言查詢以及表格作為輸入,讓TaBERT學(xué)習(xí)句子以及數(shù)據(jù)庫(kù)的上下文表示,而該表示也可以用在其他神經(jīng)網(wǎng)絡(luò)下游,以產(chǎn)生數(shù)據(jù)庫(kù)命令,并且能以任務(wù)相關(guān)的訓(xùn)練資料,來微調(diào)TaBERT表示。
研究人員提到,TaBERT可以被應(yīng)用在事實(shí)核實(shí)和驗(yàn)證應(yīng)用程序中,因?yàn)榈谌绞聦?shí)核實(shí)單位,通常也是依賴已經(jīng)存在的靜態(tài)知識(shí)庫(kù)資料,而TaBERT可以將查詢對(duì)應(yīng)到相關(guān)數(shù)據(jù)庫(kù)中,因此不僅能夠驗(yàn)證事實(shí),也能參照相關(guān)數(shù)據(jù)庫(kù)給出解釋。