Google如何使用NLP更好地理解搜索查詢、內(nèi)容?

來源:數(shù)聚梨海外營銷獨(dú)立站跨境電商
作者:數(shù)聚梨海外營銷獨(dú)立站跨境電商
時(shí)間:2022-12-06
2167
自然語言處理為Google上的語義搜索打開了大門。SEO需要了解轉(zhuǎn)向基于實(shí)體的搜索,因?yàn)檫@是Google搜索的未來。在本文中,我們將深入探討自然語言處理以及Google如何使用它來解釋搜索查詢和內(nèi)容、實(shí)體挖掘等。

640 (1).png

自然語言處理為Google上的語義搜索打開了大門。SEO需要了解轉(zhuǎn)向基于實(shí)體的搜索,因?yàn)檫@是Google搜索的未來。在本文中,我們將深入探討自然語言處理以及Google如何使用它來解釋搜索查詢和內(nèi)容、實(shí)體挖掘等。

什么是自然語言處理?

自然語言處理或NLP使理解單詞、句子和文本的含義以生成信息、知識(shí)或新文本成為可能。它由自然語言理解(NLU)和自然語言生成(NLG)組成——它允許對(duì)文本和自然語言進(jìn)行語義解釋。NLP可用于:

·語音識(shí)別(文本到語音和語音到文本)。

·將先前捕獲的語音分割成單個(gè)單詞、句子和短語。

·識(shí)別單詞的基本形式和獲取語法信息。

·識(shí)別句子中單個(gè)單詞的功能(主語、動(dòng)詞、賓語、冠詞等)

·提取句子和部分句子或短語的含義,例如形容詞短語(例如,“too long”)、介詞短語(例如,“to the river”)或名詞短語(例如,“the long party”)。

·識(shí)別句子上下文、句子關(guān)系和實(shí)體。

·語言文本分析、情感分析、翻譯(包括語音助手)、聊天機(jī)器人和底層問答系統(tǒng)。

以下是NLP的核心組件:

·標(biāo)記化:將一個(gè)句子分成不同的術(shù)語。

·詞類標(biāo)注:按賓語、主語、謂語、形容詞等對(duì)詞進(jìn)行分類。

·詞依賴:根據(jù)語法規(guī)則識(shí)別詞之間的關(guān)系。

·詞形還原:確定一個(gè)詞是否具有不同的形式并將變體規(guī)范化為基本形式。例如,“cars”的基本形式是“car”。

·解析標(biāo)簽:根據(jù)依賴關(guān)系連接的兩個(gè)單詞之間的關(guān)系標(biāo)記單詞。

·命名實(shí)體分析和提取:識(shí)別具有“已知”含義的單詞并將它們分配給實(shí)體類型的類。一般來說,命名實(shí)體是組織、人、產(chǎn)品、地點(diǎn)和事物(名詞)。在一個(gè)句子中,主語和賓語將被識(shí)別為實(shí)體。

·顯著性評(píng)分:確定文本與主題的關(guān)聯(lián)程度。顯著性通常由網(wǎng)絡(luò)上單詞的共同引用以及Wikipedia和Freebase等數(shù)據(jù)庫中實(shí)體之間的關(guān)系決定。經(jīng)驗(yàn)豐富的SEO從TF-IDF分析中知道類似的方法。

·情感分析:識(shí)別文本中表達(dá)的關(guān)于實(shí)體或主題的意見(觀點(diǎn)或態(tài)度)。

·文本分類:在宏觀層面,NLP將文本分類為內(nèi)容類別。文本分類有助于確定文本的大致內(nèi)容。

·文本分類和功能:NLP可以更進(jìn)一步,確定內(nèi)容的預(yù)期功能或目的。將搜索意圖與文檔匹配是非常有趣的。

·內(nèi)容類型提?。夯诮Y(jié)構(gòu)模式或上下文,搜索引擎可以在沒有結(jié)構(gòu)化數(shù)據(jù)的情況下確定文本的內(nèi)容類型。文本的HTML、格式和數(shù)據(jù)類型(日期、位置、URL等)可以在不使用標(biāo)記的情況下識(shí)別它是食譜、產(chǎn)品、事件還是其他內(nèi)容類型。

·根據(jù)結(jié)構(gòu)識(shí)別隱含含義:文本的格式可以改變其隱含含義。標(biāo)題、換行符、列表和接近度傳達(dá)了對(duì)文本的次要理解。例如,當(dāng)文本顯示在一個(gè)HTML排序的列表或一系列前面帶有數(shù)字的標(biāo)題中時(shí),它很可能是一個(gè)列表或排名。該結(jié)構(gòu)不僅由HTML標(biāo)記定義,還由渲染期間的視覺字體大小/粗細(xì)和接近度定義。

NLP在搜索中的應(yīng)用

多年來,谷歌已經(jīng)訓(xùn)練了像BERT或MUM這樣的語言模型來解釋文本、搜索查詢,甚至是視頻和音頻內(nèi)容。這些模型是通過自然語言處理提供的。谷歌搜索主要在以下幾個(gè)方面使用自然語言處理:

·解釋搜索查詢。

·文件主題和目的的分類。

·文檔、搜索查詢和社交媒體帖子中的實(shí)體分析。

·用于在語音搜索中生成精選片段和答案。

·視頻和音頻內(nèi)容的解釋。

·知識(shí)圖譜的擴(kuò)展和改進(jìn)。

谷歌在2019年10月發(fā)布BERT更新時(shí)強(qiáng)調(diào)了理解自然語言在搜索中的重要性。搜索的核心是理解語言。無論您如何拼寫或組合查詢中的單詞,我們的工作都是找出您正在搜索的內(nèi)容并從網(wǎng)絡(luò)上顯示有用的信息。盡管這些年來我們一直在不斷提高我們的語言理解能力,但有時(shí)我們?nèi)匀徊荒芡耆_,尤其是對(duì)于復(fù)雜或?qū)υ捠降牟樵?。事?shí)上,這就是人們經(jīng)常使用“keyword-ese”的原因之一,即輸入他們認(rèn)為我們會(huì)理解的字符串,但實(shí)際上并不是他們自然提出問題的方式。

BERT&MUM:用于解釋搜索查詢和文檔的NLP

BERT據(jù)說是繼RankBrain之后幾年谷歌搜索領(lǐng)域最關(guān)鍵的進(jìn)步?;贜LP,此更新旨在改進(jìn)搜索查詢解釋,最初影響了10%的所有搜索查詢。BERT不僅在查詢解釋中發(fā)揮作用,而且在排名和編譯特色片段以及解釋文檔中的文本調(diào)查問卷方面發(fā)揮作用。通過將BERT模型應(yīng)用于搜索中的排名和特色片段,我們能夠做得更好,幫助你找到有用的信息。事實(shí)上,在對(duì)結(jié)果進(jìn)行排名時(shí),BERT將幫助Search更好地理解美國十分之一的英語搜索,隨著時(shí)間的推移,我們將把它帶到更多的語言和地區(qū)。

MUM更新的推出是在Search On'21上宣布的。同樣基于NLP,MUM是多語言的,使用多模態(tài)數(shù)據(jù)回答復(fù)雜的搜索查詢,并處理來自不同媒體格式的信息。除了文本,MUM還可以理解圖像、視頻和音頻文件。MUM結(jié)合了多種技術(shù),使Google搜索更加語義化和基于上下文,從而改善用戶體驗(yàn)。借助MUM,Google希望以不同的媒體格式回答復(fù)雜的搜索查詢,以加入用戶的客戶旅程。與BERT和MUM一樣,NLP是更好的語義理解和更以用戶為中心的搜索引擎的重要一步。

通過實(shí)體理解搜索查詢和內(nèi)容標(biāo)志著從“字符串”到“事物”的轉(zhuǎn)變。谷歌的目標(biāo)是發(fā)展對(duì)搜索查詢和內(nèi)容的語義理解。通過識(shí)別搜索查詢中的實(shí)體,含義和搜索意圖變得更加清晰。搜索詞的單個(gè)詞不再獨(dú)立,而是在整個(gè)搜索查詢的上下文中考慮。解釋搜索詞的魔力發(fā)生在查詢處理中。以下步驟在這里很重要:

1.識(shí)別搜索查詢所在的主題本體。如果主題上下文明確,Google可以選擇文本文檔、視頻和圖像的內(nèi)容語料庫作為可能合適的搜索結(jié)果。這對(duì)于不明確的搜索詞尤其困難。

2.在搜索詞中識(shí)別實(shí)體及其含義(命名實(shí)體識(shí)別)。

3.了解搜索查詢的語義。

4.識(shí)別搜索意圖。

5.搜索查詢的語義注釋。

6.細(xì)化搜索詞。

NLP是實(shí)體挖掘最關(guān)鍵的方法論

自然語言處理將在谷歌識(shí)別實(shí)體及其含義方面發(fā)揮最重要的作用,使從非結(jié)構(gòu)化數(shù)據(jù)中提取知識(shí)成為可能。在此基礎(chǔ)上,可以創(chuàng)建實(shí)體和知識(shí)圖譜之間的關(guān)系。語音標(biāo)記部分對(duì)此有所幫助。名詞是潛在的實(shí)體,動(dòng)詞通常代表實(shí)體之間的關(guān)系。形容詞描述實(shí)體,副詞描述關(guān)系。到目前為止,谷歌只很少使用非結(jié)構(gòu)化信息來提供知識(shí)圖譜。

可以假設(shè):

·到目前為止,知識(shí)圖中記錄的實(shí)體只是冰山一角。

·谷歌還在向另一個(gè)知識(shí)庫提供有關(guān)長(zhǎng)尾實(shí)體的信息。

·NLP在為這個(gè)知識(shí)庫提供信息方面發(fā)揮著核心作用。

Google在NLP方面已經(jīng)相當(dāng)出色,但在評(píng)估自動(dòng)提取的準(zhǔn)確性信息方面尚未取得令人滿意的結(jié)果。從網(wǎng)站等非結(jié)構(gòu)化數(shù)據(jù)中對(duì)知識(shí)圖譜等知識(shí)數(shù)據(jù)庫進(jìn)行數(shù)據(jù)挖掘是復(fù)雜的。除了信息的完整性之外,正確性也是必不可少的。如今,谷歌通過NLP保證大規(guī)模的完整性,但證明正確性和準(zhǔn)確性是困難的。這可能就是為什么谷歌仍然對(duì)SERP中長(zhǎng)尾實(shí)體信息的直接定位采取謹(jǐn)慎態(tài)度的原因。

基于實(shí)體的索引與經(jīng)典的基于內(nèi)容的索引

蜂鳥更新的引入為語義搜索鋪平了道路。它還使知識(shí)圖——以及實(shí)體——成為焦點(diǎn)。知識(shí)圖是谷歌的實(shí)體索引。所有屬性、文檔和數(shù)字圖像(例如配置文件和域)都圍繞實(shí)體組織在基于實(shí)體的索引中。知識(shí)圖目前與經(jīng)典的谷歌索引并行使用以進(jìn)行排名。假設(shè)Google在搜索查詢中識(shí)別出它與知識(shí)圖中記錄的實(shí)體有關(guān)。在這種情況下,將訪問兩個(gè)索引中的信息,實(shí)體是焦點(diǎn),與實(shí)體相關(guān)的所有信息和文檔也會(huì)被考慮在內(nèi)。經(jīng)典的Google索引和知識(shí)圖譜或其他類型的知識(shí)庫之間需要一個(gè)接口或API,以在兩個(gè)索引之間交換信息。這個(gè)實(shí)體內(nèi)容接口是關(guān)于找出:

·一段內(nèi)容中是否有實(shí)體。

·是否存在內(nèi)容所涉及的主要實(shí)體。

·可以將主要實(shí)體分配給哪些本體或多個(gè)本體。

·分配內(nèi)容的作者或?qū)嶓w。

·內(nèi)容中的實(shí)體如何相互關(guān)聯(lián)。

·哪些屬性或?qū)傩詫⒎峙浣o實(shí)體。

我們才剛剛開始感受到SERP中基于實(shí)體的搜索的影響,因?yàn)楣雀枥斫鈫蝹€(gè)實(shí)體的含義很慢。通過社會(huì)相關(guān)性自上而下地理解實(shí)體。最相關(guān)的內(nèi)容分別記錄在Wikidata和Wikipedia中。最大的任務(wù)將是識(shí)別和驗(yàn)證長(zhǎng)尾實(shí)體。還不清楚谷歌檢查哪些標(biāo)準(zhǔn)以將實(shí)體包含在知識(shí)圖中。在2019年1月的德國網(wǎng)站管理員環(huán)聊中,谷歌的John Mueller表示,他們正在研究一種更直接的方式來為每個(gè)人創(chuàng)建實(shí)體。

我認(rèn)為我們沒有明確的答案。我認(rèn)為我們有不同的算法來檢查類似的東西,然后我們使用不同的標(biāo)準(zhǔn)將整個(gè)事物拉在一起,將其分開并識(shí)別哪些事物是真正獨(dú)立的實(shí)體,它們只是變體或不太獨(dú)立的實(shí)體......但到目前為止我擔(dān)心我已經(jīng)看到了,這是我們正在努力擴(kuò)展的東西,我想它也會(huì)更容易在知識(shí)圖中獲得特色。但我不知道具體的計(jì)劃是什么。NLP在擴(kuò)大這一挑戰(zhàn)方面發(fā)揮著至關(guān)重要的作用。diffbot演示中的示例展示了NLP可用于實(shí)體挖掘和構(gòu)建知識(shí)圖譜的效果。

Google搜索中的NLP將繼續(xù)存在

RankBrain被引入以通過向量空間分析來解釋搜索查詢和術(shù)語,而以前沒有以這種方式使用過。BERT和MUM使用自然語言處理來解釋搜索查詢和文檔。除了對(duì)搜索查詢和內(nèi)容的解釋之外,MUM和BERT還打開了大門,允許知識(shí)圖譜等知識(shí)數(shù)據(jù)庫大規(guī)模增長(zhǎng),從而在谷歌推進(jìn)語義搜索。谷歌搜索通過核心更新的發(fā)展也與MUM和BERT密切相關(guān),最終與NLP和語義搜索密切相關(guān)。未來,我們將看到越來越多的基于實(shí)體的Google搜索結(jié)果取代經(jīng)典的基于短語的索引和排名。

立即登錄,閱讀全文
原文鏈接:點(diǎn)擊前往 >
文章來源:數(shù)聚梨海外營銷獨(dú)立站跨境電商
版權(quán)說明:本文內(nèi)容來自于數(shù)聚梨海外營銷獨(dú)立站跨境電商,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家