騰訊云向量數(shù)據(jù)庫(kù)正式發(fā)布

來源：騰訊云數(shù)據(jù)庫(kù)

作者：騰訊云數(shù)據(jù)庫(kù)

時(shí)間：2023-07-05

大模型正在重塑產(chǎn)業(yè)。但想要真正擁抱大模型，仍然面臨很多現(xiàn)實(shí)問題。

大模型正在重塑產(chǎn)業(yè)。

但想要真正擁抱大模型，仍然面臨很多現(xiàn)實(shí)問題：

·如何高效率、低成本地處理數(shù)據(jù)？

·模型數(shù)據(jù)如何動(dòng)態(tài)更新？

·私有數(shù)據(jù)如何安全地接入大模型？

想要解決這些問題，我們需要在數(shù)據(jù)和大模型之間搭建一座橋梁。

過往，承擔(dān)數(shù)據(jù)組織的是傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)。但它更適合用來應(yīng)對(duì)結(jié)構(gòu)化的數(shù)據(jù)。

大模型和神經(jīng)網(wǎng)絡(luò)，更多面對(duì)的是海量的非結(jié)構(gòu)化數(shù)據(jù)，比如文本、音頻、視頻、關(guān)系等。

它們有一種專門的處理方式：“向量化”：

想要按這種”腦回路“組織數(shù)據(jù)，需要一個(gè)專門的數(shù)據(jù)庫(kù)——向量數(shù)據(jù)庫(kù)。

把復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù)通過向量化（embedding），處理統(tǒng)一成多維空間里的坐標(biāo)值，通過計(jì)算向量之間的相似度或距離，快速定位最相關(guān)的近似值。

640 （1）.jpg

它被廣泛地用于大模型訓(xùn)練、推理和知識(shí)庫(kù)補(bǔ)充等場(chǎng)景：

·支撐訓(xùn)練階段海量數(shù)據(jù)的分類、去重和清洗，給大模型的訓(xùn)練降本增效；

·通過新數(shù)據(jù)的帶入，幫助大模型提升處理新問題的能力，突破預(yù)訓(xùn)練帶來的知識(shí)時(shí)間限制，避免大模型出現(xiàn)幻覺；

·提供一種私有數(shù)據(jù)連接大模型的方式，解決私有數(shù)據(jù)注入大模型帶來的安全和隱私問題，加速大模型在產(chǎn)業(yè)落地；

·……

簡(jiǎn)而言之，如果大模型是一個(gè)智能的處理器，那向量數(shù)據(jù)庫(kù)就是配合這臺(tái)處理器的”外置緩存"。

今天，我們正式發(fā)布國(guó)內(nèi)首個(gè)AI原生（AI Native）的向量數(shù)據(jù)庫(kù)：

騰訊云向量數(shù)據(jù)庫(kù)

Tencent Cloud VectorDB

它最高支持業(yè)界領(lǐng)先的10億級(jí)向量檢索規(guī)模，并將延遲控制在毫秒級(jí)。相比傳統(tǒng)單機(jī)插件式數(shù)據(jù)庫(kù)檢索規(guī)模提升10倍，同時(shí)具備百萬(wàn)級(jí)每秒查詢（QPS）的峰值能力。

640 （2）.jpg

針對(duì)大模型場(chǎng)景，它在接入層、計(jì)算層、存儲(chǔ)層實(shí)現(xiàn)了全面AI化：

·在接入層，智能化支持自然語(yǔ)言文本的直接檢索；

·在計(jì)算層，通過AI算子替代企業(yè)尋找/調(diào)優(yōu)AI算法，將接入工期從一個(gè)月縮短到3天；

·在存儲(chǔ)層，融合智能壓縮算法，把向量存儲(chǔ)成本降低50%。

統(tǒng)計(jì)顯示，將騰訊云向量數(shù)據(jù)庫(kù)用于大模型預(yù)訓(xùn)練數(shù)據(jù)的分類、去重和清洗，相比傳統(tǒng)方式可以實(shí)現(xiàn)10倍效率的提升。

如果將向量數(shù)據(jù)庫(kù)作為外部知識(shí)庫(kù)用于模型推理，則可以將成本降低2～4個(gè)數(shù)量級(jí)。

640 （3）.jpg

其實(shí)，騰訊云向量數(shù)據(jù)庫(kù)經(jīng)歷了鵝廠內(nèi)部業(yè)務(wù)的長(zhǎng)期錘煉：

·覆蓋騰訊視頻、QQ瀏覽器、QQ音樂等上百個(gè)業(yè)務(wù)場(chǎng)景，每日調(diào)用量超千億次；

·支撐QQ音樂人均聽歌時(shí)長(zhǎng)提升3.2%，QQ瀏覽器成本降低37.9%，騰訊視頻有效曝光人均時(shí)長(zhǎng)提升1.74%；

·向量化能力（embedding）多次獲得權(quán)威機(jī)構(gòu)認(rèn)可，曾登頂MS MARCO榜單第一。

640 （4）.jpg 展望未來，“向量數(shù)據(jù)庫(kù)+大模型+數(shù)據(jù)”將產(chǎn)生“飛輪效應(yīng)”，共同助力企業(yè)步入AI Native（AI原生）時(shí)代。

我們也將繼續(xù)打磨技術(shù)能力，提供更堅(jiān)實(shí)的AI基礎(chǔ)設(shè)施。

騰訊云

上一篇：靠一款SLG席卷20億，這家在成都圈「一戰(zhàn)成名」的公司又殺回來了

原文鏈接：點(diǎn)擊前往 >

文章來源：騰訊云數(shù)據(jù)庫(kù)

版權(quán)說明：本文內(nèi)容來自于騰訊云數(shù)據(jù)庫(kù)，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán)，請(qǐng)聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章