決勝AI時(shí)代,搜索超越搜索

來源:Tech星球
作者:賈寧宇
時(shí)間:2023-01-12
1340
搜索的一次超級進(jìn)化,通過AI自動或輔助生成內(nèi)容的生產(chǎn)方式,比如AI作畫、AI聊天、AI語音合成等。

 要說AI圈最近的新頂流,非ChatGPT莫屬。

它似乎無所不能,可以寫詩,做高數(shù)題,寫代碼,回答法律、經(jīng)濟(jì)等專業(yè)領(lǐng)域的問題。一時(shí)間,“ChatGPT能取代搜索嗎”成為了最熱議的話題。

沒過多久,ChatGPT自己回答了爭議,他態(tài)度謙遜,稱“我是一個(gè)大型語言模型,無法與 Google 或任何其他搜索引擎進(jìn)行比較”。

ChatGPT的火爆順勢將其背后采用的技術(shù)“AIGC”推向高潮,這是一種通過AI自動或輔助生成內(nèi)容的生產(chǎn)方式,比如AI作畫、AI聊天、AI語音合成等等。

對于許多人而言,AIGC還是一個(gè)新鮮詞,但對于百度的工程師來講則不然。百度是國內(nèi)最早布局AIGC的大廠之一,用李彥宏的話講,“這是百度天天在琢磨的技術(shù)方向”。就在去年年初,百度還精準(zhǔn)預(yù)言了AIGC的爆發(fā)。

更重要的是,技術(shù)不止停留在紙面上,而是有了現(xiàn)實(shí)的應(yīng)用。去年4月,利用AIGC,百度的程序員們用李彥宏約300句公開語音數(shù)據(jù)生成了20萬字的語音書。8月,在AI繪畫模型普遍英文輸入的情況下,早早實(shí)現(xiàn)了中文版文生圖模型文心·一格。

在百度看來,AIGC與搜索引擎是互補(bǔ)關(guān)系而非取代關(guān)系。在1月10日的Create大會上,百度表示,將推進(jìn)AIGC與搜索結(jié)合的速度,提升搜索體驗(yàn),對“生成式搜索”產(chǎn)品進(jìn)行升級,產(chǎn)品預(yù)計(jì)近期上線。

這是搜索產(chǎn)品的一次巨大更新。

和20年前相比,如今的搜索市場發(fā)生了諸多變化,信息的來源不僅是文字,還包括圖片、音頻和視頻;對話方式也在改變,用戶有了更多口語化的,模糊的表達(dá)。如何更快、更全、更準(zhǔn)得給出用戶想要的答案,是搜索引擎一直努力的方向。

用戶好奇的是,當(dāng)人類進(jìn)入第四次工業(yè)革命,已經(jīng)23歲的百度搜索還能怎么變?


搜索成為最大的AI


如果拋開技術(shù)的限制,你希望未來的搜索是什么樣子?是一把萬能鑰匙,可以解開你心中所有的疑惑?是一個(gè)無所不知的AI,以易于理解的問答形式,提供準(zhǔn)確的答案?

在形式上,它可能不再是一個(gè)搜索框,而是一個(gè)虛擬數(shù)字人??梢酝ㄟ^語音與它直接交流讓搜索變得更簡單,也能俘獲更多用戶。

這似乎更符合搜索的初衷。因?yàn)樗阉饕嬲Q生至今,一直希望幫助人們更平等便捷地獲取信息。

暫且不管未來的搜索?,F(xiàn)在,打開最大的中文搜索引擎百度,你會更清楚得感知到搜索的變化。比如當(dāng)你搜索“韓國有部電影野獸輪船在空中漂著叫什么名字”,這種模糊的表達(dá)在過去可能沒辦法給出答案。

現(xiàn)在,百度構(gòu)建了搜索領(lǐng)域全球最大的語義推理集群、中文領(lǐng)先超大語義模型,以及基于全網(wǎng)內(nèi)容的深度問答技術(shù)。基于此,針對用戶的模糊表達(dá),百度搜索可以迅速給出答案。


再比如,當(dāng)一個(gè)孩子提問媽媽“揚(yáng)子鱷有多長”時(shí),媽媽搜索出一段揚(yáng)子鱷的視頻后,可以根據(jù)搜索提示直接定位到視頻中介紹揚(yáng)子鱷身長的那一段。這時(shí)候,視頻是更為妥帖的解決辦法。

這些搜索體驗(yàn)的升級是過去百度在人工智能領(lǐng)域摸爬滾打10年的成果。他們打造了人工智能產(chǎn)品的研發(fā)基石:飛槳和昆侖芯片。這10年,百度累計(jì)研發(fā)投入超過1000億,每年研發(fā)占比都超過15%,2021年更是達(dá)到23%,AI專利申請量、授予量均連續(xù)5年蟬聯(lián)國內(nèi)榜首。

百度重金投入的原因不難理解。

因?yàn)?,搜索引擎始終在做一件事情:“如何理解并解答一個(gè)人的提問,并給出精準(zhǔn)回答”。它的核心技術(shù)是自然語言處理,天生具備人工智能基因。換句話說,搜索公司本身就是AI公司,AI技術(shù)的進(jìn)步才能帶來搜索的進(jìn)步。

2020年,百度推出首個(gè)智能可交互數(shù)字人度曉曉。度曉曉可以對每個(gè)用戶形成獨(dú)特的記憶,進(jìn)行個(gè)性化對話。這背后是超大規(guī)模智能聊天模型、虛擬人動作語音實(shí)時(shí)合成等多項(xiàng)超前的AI技術(shù)。

不止如此。在百度,幾乎所有的AI技術(shù)都會優(yōu)先應(yīng)用到搜索,比如跨模態(tài)大模型技術(shù)、AIGC等等。

技術(shù)的投入也確實(shí)讓百度在搜索保持巨大的領(lǐng)先性。這些年來,搜索引擎的挑戰(zhàn)者不斷,但依然沒有任何人可以撼動百度在中文搜索引擎領(lǐng)域的領(lǐng)先地位,甚至百度的市場份額還提升了——過去一年,規(guī)模年同比增長17%。

依托飛槳平臺和昆侖芯片,百度構(gòu)建了搜索領(lǐng)域全球最大的異構(gòu)計(jì)算集群,每天可以進(jìn)行超萬億次的在線深度語義推理,滿足用戶每天數(shù)十億次的搜索需求。這樣的運(yùn)算規(guī)模遠(yuǎn)超任何一個(gè)人工智能項(xiàng)目,可以毫不夸張得說,搜索已經(jīng)成為了最大的人工智能項(xiàng)目。搜索也是AI規(guī)模最大的應(yīng)用場景。


“知一”、“千流”:搜索進(jìn)化的又一次雙向奔赴

任何產(chǎn)品的進(jìn)化都是一個(gè)“雙向奔赴”的過程,需求的誕生催生了技術(shù)的發(fā)展,而技術(shù)的發(fā)展又會刺激需求進(jìn)一步的釋放,從而形成一個(gè)良性循環(huán)。

互聯(lián)網(wǎng)領(lǐng)域的拳頭產(chǎn)品搜索亦是如此。

百度搜索每天響應(yīng)幾十億次真實(shí)的用戶使用需求,每天進(jìn)行1萬億次深度語義推理與匹配, 用戶的最真實(shí)、最及時(shí)的反饋倒逼了搜索技術(shù)的進(jìn)一步發(fā)展。

2022年,百度搜索在技術(shù)端最大的反饋創(chuàng)新便是“知一”和“千流”。

“知一”是百度在去年萬象大會推出的跨模態(tài)大模型。在此之前,百度搜索背后采用的是語言理解的大模型。

但互聯(lián)網(wǎng)發(fā)展至今,信息本身早已不純粹是語言理解的方式,它更多的融合圖像、視頻和各種各樣模態(tài)的信息。用戶的需求表達(dá)也已經(jīng)從單純的一個(gè)關(guān)鍵詞到現(xiàn)在口語化、冷門的表達(dá);表達(dá)方式從單純的文字到語音、圖片。

想要搜索服務(wù)升級,就必須理解多種模態(tài)的信息。而跨模態(tài)大模型“知一”恰好可以更好理解各種各樣的媒介,以及媒介之間的信息互通產(chǎn)生的信息,最終可以把更滿足用戶需求的結(jié)果呈現(xiàn)出來。

比如,當(dāng)用戶在百度搜索“智能鎖哪個(gè)品牌比較好”時(shí),百度可以對全網(wǎng)智能鎖的商品信息進(jìn)行智能聚合,生成商品榜單,來輔助決策。當(dāng)用戶搜索“附近的酒店”時(shí),百度不僅可以找到酒店相關(guān)信息,還能進(jìn)行多平臺比價(jià),完成?站式閉環(huán)交易。

現(xiàn)在,“知一”能夠完成日均萬億次的超大規(guī)模在線預(yù)估,能夠處理千億綜合語料和百億視頻語料,每天要進(jìn)行萬億次的推理。超強(qiáng)的計(jì)算能力和理解能力是搜索準(zhǔn)確度和完整度的保證。

事實(shí)上,用戶對搜索的要求一直是更全、更快、更準(zhǔn)。這也是搜索引擎技術(shù)提升的關(guān)鍵指標(biāo)。

搜索技術(shù)本身是一個(gè)索引技術(shù)。

為了迅速找到滿足用戶需求的內(nèi)容,傳統(tǒng)搜索引擎依據(jù)內(nèi)容質(zhì)量橫向分層,基于不同的需求去進(jìn)行一個(gè)定向的觸發(fā)。

但當(dāng)下的問題是,數(shù)據(jù)規(guī)模超前巨大,搜索引擎又要在毫秒級將檢索結(jié)果反饋給用戶,同時(shí)要使得結(jié)果盡可能精確。為此,百度搜索推出了新的索引技術(shù):千流。

千流能夠把不同維度的信息進(jìn)行智能有序的組織,將傳統(tǒng)索引升級成多領(lǐng)域、多維度表達(dá)的立體柵格索引。通過模型對每一個(gè)請求進(jìn)行分析,智能判斷檢索路徑,進(jìn)行柵格化激活??梢哉f,“千流”是對搜索引擎后端架構(gòu)的徹底改造。

這就好像,當(dāng)你去超市買東西,詢問服務(wù)員,在哪里可以買到中華牙膏時(shí),原本她只會告訴你哪片區(qū)域有牙膏。而千流則可以告訴你在第幾排第幾列的第幾個(gè)。千流要做的是,直達(dá)用戶心中所想。

據(jù)百度透露,千流上線后,索引的單位成本降低了50%,索引計(jì)算速度提升了1倍以上,實(shí)現(xiàn)了效能的大幅飛躍。

事實(shí)上,對于C端用戶而言,后端技術(shù)的一次改變可能無法在短時(shí)間內(nèi)有明確的體驗(yàn)。在一次又一次技術(shù)的疊加,足以讓搜索體驗(yàn)發(fā)生巨大的變化,吸引更多的用戶,也讓百度的基本盤更加扎實(shí)。

在百度內(nèi)部,李彥宏曾多次強(qiáng)調(diào),永遠(yuǎn)不要以任何方式遏制用戶的需求表達(dá),在百度20周年的紀(jì)錄片上,李彥宏的這句話占了很重要的位置。而知一和千流的推出也表明,百度搜索一直在想辦法用技術(shù)更好地服務(wù)用戶的需求。

數(shù)據(jù)也在證明用戶的選擇。過去一年,百度搜索的規(guī)模年同比實(shí)現(xiàn)了17%的增長。去年9月,百度App 月活達(dá)到6.34億,同比增長5%,在移動互聯(lián)網(wǎng)流量見頂?shù)漠?dāng)下,這樣的成績絕非偶然。


23歲的搜索將迎來重大更新


當(dāng)下,搜索市場規(guī)模依然增速穩(wěn)定,前赴后繼的涌入者都證明了市場的潛力,也證明搜索的故事還遠(yuǎn)未結(jié)束。

在Create大會上,百度介紹,基于國內(nèi)頂尖的中文生成式大模型“文心大模型”,百度正在升級生成式搜索。百度希望將過去的檢索系統(tǒng)升級成為“檢索+生成”。

現(xiàn)在,搜索引擎的主流邏輯是找到用戶需要的信息反饋給用戶。而在“檢索+生成”,系統(tǒng)會把搜索中的信息通過自己的組織,將規(guī)整后的答案提供給用戶,將給用戶帶來產(chǎn)品體驗(yàn)的全方位升級。

當(dāng)前,當(dāng)用戶想了解“北京GDP和上海GDP誰高”時(shí),百度可以直接基于權(quán)威數(shù)據(jù)自動生成近年兩地GDP的走勢圖,直觀呈現(xiàn)高低對比、高多少,而無需用戶分別搜索兩地GDP再自行計(jì)算。


當(dāng)你希望用搜索創(chuàng)造出水墨畫風(fēng)格的頭像或者情侶頭像時(shí),搜索可以通過AIGC來生成。生成技術(shù)讓搜索具備了創(chuàng)造力的同時(shí),還可以更具個(gè)性化。比如,同樣是搜索“天空為什么是藍(lán)色的”,小朋友、高中生、大學(xué)生搜出來的答案可能會有差別。

2022年,被國際研究機(jī)構(gòu) Gartner 評定為「本年度五大影響力技術(shù)之一」的AIGC也會和搜索深度融合。在AIGC的加持下,搜索可以給用戶帶來更加趣味性的體驗(yàn),比如上傳一個(gè)頭像可以定制自己的兔年版本頭像;輸入關(guān)鍵詞可以定制祝福語等等。

搜索誕生20多年,已經(jīng)成為了互聯(lián)網(wǎng)一項(xiàng)最核心的基礎(chǔ)應(yīng)用,用戶們希望找到最滿意的答案??梢院敛豢鋸埖刂v,搜索已經(jīng)是互聯(lián)網(wǎng)的‘水電煤’。

但它遠(yuǎn)未定型。從PC時(shí)代到移動互聯(lián)網(wǎng)時(shí)代,再到如今的Web 3 時(shí)代,百度一直保持著在中文搜索領(lǐng)域的絕對領(lǐng)先地位。過去10年,更是不遺余力得投入AI技術(shù)研發(fā)中。

現(xiàn)在,搜索正迎來AI技術(shù)創(chuàng)新的紅利期,一個(gè)簡單的搜索框背后有跨模態(tài)超大模型、有超大規(guī)模智能語音聊天模型、有檢索+生成等多項(xiàng)AI前沿技術(shù)。

沒人可以確切得知道未來的搜索是什么樣,但可以確定的是,他一定是滿足用戶新需求的,搭載AI新技術(shù)的產(chǎn)物。站在百度的角度講,搜索引擎的持續(xù)領(lǐng)先可以為其不斷夯實(shí)基本盤。站在搜索引擎的角度,百度的對手只有自己。

立即登錄,閱讀全文
原文鏈接:點(diǎn)擊前往 >
文章來源:Tech星球
版權(quán)說明:本文內(nèi)容來自于Tech星球,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對觀點(diǎn)贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
掃碼關(guān)注
獲取更多出海資訊的相關(guān)信息
優(yōu)質(zhì)服務(wù)商推薦
更多
個(gè)人VIP