展會信息港展會大全

騰訊云大模型領(lǐng)域新動(dòng)向!向量數(shù)據(jù)庫作為獨(dú)立產(chǎn)品推出,8月上架
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-07-06 19:45:16   瀏覽:13198次  

導(dǎo)讀:明敏 發(fā)自 凹非寺 量子位 | 公眾號 QbitAI 騰訊云的大模型領(lǐng)域布局,再補(bǔ)齊一塊拼圖。 最新動(dòng)向,騰訊云 AI原生(AI Native)向量數(shù)據(jù)庫Tencent Cloud VectorDB以獨(dú)立產(chǎn)品形式 對外發(fā)布,將在8月正式上架騰訊云。 這意味著,已經(jīng)推出了行業(yè)大模型平臺的騰訊...

明敏 發(fā)自 凹非寺

量子位 | 公眾號 QbitAI

騰訊云的大模型領(lǐng)域布局,再補(bǔ)齊一塊拼圖。

最新動(dòng)向,騰訊云AI原生(AI Native)向量數(shù)據(jù)庫Tencent Cloud VectorDB以獨(dú)立產(chǎn)品形式對外發(fā)布,將在8月正式上架騰訊云。

這意味著,已經(jīng)推出了行業(yè)大模型平臺的騰訊云,還要專門面向大模型巨大的數(shù)據(jù)需求,推出單點(diǎn)云服務(wù)產(chǎn)品。

這在國內(nèi)云市場中,還是首例。

今年大模型趨勢發(fā)生以來,向量數(shù)據(jù)庫因?yàn)樽陨韺傩,備受行業(yè)關(guān)注。

作為給大模型長期記憶的“海馬體”,它能夠加速大模型知識的更新速度、降低訓(xùn)練成本、保障數(shù)據(jù)隱私、減少大模型幻覺等,可以解決當(dāng)下大模型發(fā)展中的諸多關(guān)鍵問題。

在騰訊云重磅發(fā)布的行業(yè)大模型平臺上,向量數(shù)據(jù)庫也是被重點(diǎn)強(qiáng)調(diào)的能力之一。

那么問題就來了

為什么已經(jīng)向外輸出能力的向量數(shù)據(jù)庫,還要再以單獨(dú)產(chǎn)品形式對外發(fā)布?騰訊云這么做的理由是?

還是從最新發(fā)布的內(nèi)容看起。

實(shí)現(xiàn)3天接入大模型

先簡單介紹下向量數(shù)據(jù)庫。

它是通過把數(shù)據(jù)向量化,然后進(jìn)行存儲和查詢?梢愿咚偬幚泶笠(guī)模復(fù)雜數(shù)據(jù)、高維數(shù)據(jù)(如圖像、音視頻等);同時(shí)支持復(fù)雜查詢操作,能輕松擴(kuò)展到多個(gè)節(jié)點(diǎn)處理更大規(guī)模數(shù)據(jù)。

△圖源:騰訊云

具體到大模型領(lǐng)域,向量數(shù)據(jù)庫能有效降低訓(xùn)練成本、補(bǔ)充模型“長期記憶”、更快更新知識庫、解決提示詞工程復(fù)雜等問題。

如騰訊云向量數(shù)據(jù)庫,可最高支持10億級向量檢索規(guī)模,延遲控制在毫秒級,相比傳統(tǒng)插件式數(shù)據(jù)庫檢索規(guī)模提升10倍,同時(shí)具備百萬級每秒查詢(QPS)的峰值能力。

這是什么概念?

騰訊云數(shù)據(jù)庫副總經(jīng)理羅云解釋說,假設(shè)想要在10億張圖片里找到1張有狗的圖片,騰訊云向量數(shù)據(jù)庫有可以同時(shí)支持100萬個(gè)類似的請求,在10億規(guī)模圖片里進(jìn)行搜索,并且平均時(shí)延控制在百毫秒以內(nèi)。

而為了能更加面向大模型領(lǐng)域需求,這次最新發(fā)布中,騰訊云重新定義了一個(gè)AI原生(AI Native)的開發(fā)范式。

將提供接入層、計(jì)算層、存儲層的全面AI化解決方案。

帶來的改變是,能讓用戶在使用向量數(shù)據(jù)庫的全生命周期內(nèi),都能應(yīng)用到AI能力。

具體而言:

在接入層,騰訊云向量數(shù)據(jù)庫支持自然語言文本的輸入,同時(shí)采用“標(biāo)量+向量”的查詢方式,支持全內(nèi)存索引,最高支持每秒百萬的查詢量(QPS);

在計(jì)算層,AI原生開發(fā)范式能實(shí)現(xiàn)全量數(shù)據(jù)AI計(jì)算,一站式解決企業(yè)在搭建私域知識庫時(shí)的文本切分(segment)、向量化(embedding)等難題;

在存儲層,騰訊云向量數(shù)據(jù)庫支持?jǐn)?shù)據(jù)智能存儲分布,能將企業(yè)存儲成本降低50%。

帶來的直接好處是,原來企業(yè)接入一個(gè)大模型需要花1個(gè)月左右的時(shí)間,用騰訊云向量庫后,可以僅需3天,給企業(yè)使用降低了門檻。

而且將騰訊云向量數(shù)據(jù)庫用于大模型預(yù)訓(xùn)練數(shù)據(jù)的分類、去重和清洗相比傳統(tǒng)方式可以實(shí)現(xiàn)10倍效率提升,如果將向量數(shù)據(jù)庫作為外部知識庫用于模型推理,則可以將成本降低2-4個(gè)數(shù)量級。

為什么以獨(dú)立產(chǎn)品形式推出?

自今年大模型趨勢發(fā)生以來,向量數(shù)據(jù)庫領(lǐng)域備受關(guān)注。

今年3月以后,多家向量數(shù)據(jù)庫廠商拿下最新融資,其中Pinecone更是獲得高達(dá)1億美元的B輪融資。

騰訊云當(dāng)然也注意到了這一趨勢。

騰訊云數(shù)據(jù)庫副總經(jīng)理羅云表示,當(dāng)時(shí)內(nèi)部已經(jīng)開始討論,隨著AI趨勢演進(jìn)是否需要有一個(gè)單獨(dú)workload的向量數(shù)據(jù)庫去對外提供服務(wù)?

要知道,向量檢索其實(shí)非常消耗CPU和內(nèi)存資源。隨著使用向量數(shù)據(jù)庫的workload越來越大,插件式的數(shù)據(jù)庫會面臨一些挑戰(zhàn)。

如果能把LTP(語言技術(shù)平臺)流量擴(kuò)增和向量流量擴(kuò)增的資源分開,能讓企業(yè)更加精細(xì)化管理自己的資源,從而降低成本。

因此騰訊云認(rèn)為這種Purpose-built(專用)向量數(shù)據(jù)庫會越來越重要。

而且在那個(gè)時(shí)間點(diǎn),內(nèi)部已經(jīng)有了一個(gè)比較明確的判斷:

騰訊云在多年的積累下,對外提供一個(gè)更大規(guī)模的向量數(shù)據(jù)庫產(chǎn)品,是有優(yōu)勢的。

為什么這么說?

有兩方面原因。

對內(nèi),騰訊云并非是從0到1開始做向量數(shù)據(jù)庫;對外,市場需求已經(jīng)非常明顯,而且會越來越大。

內(nèi)因方面,騰訊云向量數(shù)據(jù)庫從2019年開始在內(nèi)部進(jìn)行孵化,集成了業(yè)內(nèi)以及騰訊自研的大量優(yōu)秀算法,其能力已在內(nèi)部多項(xiàng)業(yè)務(wù)中得到充分驗(yàn)證,并且積累了比較豐富的實(shí)踐經(jīng)驗(yàn)。

騰訊云向量數(shù)據(jù)庫依托于騰訊內(nèi)部的分布式向量數(shù)據(jù)庫引擎Olama(原名ElasticFaiss)。

騰訊PCG大數(shù)據(jù)平臺部搜索推薦Senior Tech Lead鄭偉介紹,Olama目前負(fù)責(zé)處理騰訊集團(tuán)每日千億次檢索,在內(nèi)部海量場景的實(shí)踐下,數(shù)據(jù)接入AI的效率也比傳統(tǒng)方案提升10倍,運(yùn)行穩(wěn)定性達(dá)99.99%。

其向量化能力(embedding)在2021年登頂MS MARCO 榜單第一,相關(guān)成果已發(fā)表在NLP頂會ACL。

而在Olama的最新升級中,還針對成本、穩(wěn)定性、自動(dòng)化等方面做出更大提升。

目前,Olama已經(jīng)應(yīng)用在了多個(gè)騰訊內(nèi)部業(yè)務(wù)上,如騰訊視頻、QQ瀏覽器、QQ音樂等30款產(chǎn)品中。

數(shù)據(jù)顯示,使用騰訊云向量數(shù)據(jù)庫后,QQ音樂人均聽歌時(shí)長提升3.2%、騰訊視頻有效曝光人均時(shí)長提升1.74%、QQ瀏覽器成本降低37.9%。

以騰訊視頻的應(yīng)用為例,視頻庫中的圖片、音頻、標(biāo)題文本等內(nèi)容使用騰訊云向量數(shù)據(jù)庫,月均完成的檢索和計(jì)算量高達(dá)200億次,有效滿足了版權(quán)保護(hù)、原創(chuàng)識別、相似性檢索等場景需求。

而在外因方面,不僅是看到了向量數(shù)據(jù)庫領(lǐng)域的發(fā)展趨勢,騰訊云認(rèn)為在這一方面云廠商也有一定自身優(yōu)勢。

羅云表示,出于對數(shù)據(jù)的重視,國內(nèi)企業(yè)在選擇數(shù)據(jù)類產(chǎn)品服務(wù)時(shí),會希望能更加穩(wěn)定、長久。

那么在國內(nèi)的To B決策鏈條里,公有云廠商提供自己相應(yīng)的技術(shù)服務(wù),會很有競爭力。

據(jù)東北證券預(yù)測,到2030年,全球向量數(shù)據(jù)庫市場規(guī)模有望達(dá)到500億美元,國內(nèi)向量數(shù)據(jù)庫市場規(guī)模有望超過600億人民幣

騰訊云的動(dòng)向,代表了云廠商在向量數(shù)據(jù)庫方面的發(fā)力。

而除此之外,我們也看到Zilliz在內(nèi)的向量數(shù)據(jù)庫廠商,陸續(xù)面向大模型進(jìn)行產(chǎn)品更新和升級。以及一些老牌數(shù)據(jù)庫廠商(如甲骨文)也在發(fā)布AI相關(guān)業(yè)務(wù)。

而目前行業(yè)尚處于一個(gè)比較早期的階段,未來趨勢如何發(fā)展,還要看各方廠商的具體動(dòng)向了。

但總之,在大模型趨勢推動(dòng)下,向量數(shù)據(jù)庫領(lǐng)域還在不斷升溫。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港