展會(huì)信息港展會(huì)大全

騰訊云發(fā)布AI原生向量數(shù)據(jù)庫(kù) 欲打破大模型訓(xùn)練的時(shí)空限制
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2023-07-06 19:37:49   瀏覽:5943次  

導(dǎo)讀:每經(jīng)記者:王帆每經(jīng)編輯:楊夏 ChatGPT引發(fā)的大模型浪潮,催生了數(shù)據(jù)存儲(chǔ)、檢索需求。傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)難以處理大規(guī)模數(shù)據(jù)、低時(shí)延高并發(fā)查詢、模糊匹配等需求,但向量數(shù)據(jù)庫(kù)能夠有效解決這些痛點(diǎn),因此受到業(yè)界青睞。今年5月前后的一個(gè)月內(nèi),全球有4家向量...

每經(jīng)記者:王帆每經(jīng)編輯:楊夏

ChatGPT引發(fā)的大模型浪潮,催生了數(shù)據(jù)存儲(chǔ)、檢索需求。傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)難以處理大規(guī)模數(shù)據(jù)、低時(shí)延高并發(fā)查詢、模糊匹配等需求,但向量數(shù)據(jù)庫(kù)能夠有效解決這些痛點(diǎn),因此受到業(yè)界青睞。今年5月前后的一個(gè)月內(nèi),全球有4家向量數(shù)據(jù)庫(kù)創(chuàng)業(yè)公司獲得新融資,國(guó)內(nèi)的相關(guān)概念股股價(jià)紛紛上漲。

“如果你看好AI,那你就可以看好向量數(shù)據(jù)庫(kù)。”7月4日,騰訊云正式發(fā)布AI原生(AI Native)向量數(shù)據(jù)庫(kù),騰訊云數(shù)據(jù)庫(kù)副總經(jīng)理羅云在會(huì)后接受采訪如是表示。羅云認(rèn)為,向量數(shù)據(jù)庫(kù)是大模型和企業(yè)數(shù)據(jù)之間的橋梁,可以打破大模型訓(xùn)練的時(shí)空限制,能夠被廣泛應(yīng)用于大模型的訓(xùn)練、推理和知識(shí)庫(kù)補(bǔ)充等場(chǎng)景。

《每日經(jīng)濟(jì)新聞》記者了解到,目前騰訊云的向量數(shù)據(jù)庫(kù)主要在騰訊內(nèi)部產(chǎn)品進(jìn)行探索應(yīng)用。經(jīng)過(guò)騰訊內(nèi)部海量場(chǎng)景的實(shí)踐,數(shù)據(jù)接入AI的效率也比傳統(tǒng)方案提升10倍,運(yùn)行穩(wěn)定性高達(dá)99.99%。不過(guò),從騰訊內(nèi)部探索,到外部實(shí)際的商業(yè)化落地,尚需時(shí)間。

圖片來(lái)源:視覺中國(guó)(圖文無(wú)關(guān))

成為大模型和企業(yè)數(shù)據(jù)的橋梁

向量數(shù)據(jù)庫(kù)專門用于存儲(chǔ)和查詢向量數(shù)據(jù),業(yè)界稱之為大模型的“海馬體”。

西南證券今年6月發(fā)布的研報(bào)指出,與傳統(tǒng)數(shù)據(jù)庫(kù)相比,向量數(shù)據(jù)庫(kù)使用向量化計(jì)算,能夠高速地處理大規(guī)模的復(fù)雜數(shù)據(jù);并可以處理高維數(shù)據(jù),例如圖像、音頻和視頻等,解決傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)中的痛點(diǎn);同時(shí),向量數(shù)據(jù)庫(kù)支持復(fù)雜的查詢操作,也可以輕松地?cái)U(kuò)展到多個(gè)節(jié)點(diǎn),以處理更大規(guī)模的數(shù)據(jù)。

7月4日,騰訊云正式發(fā)布AI原生(AI Native)向量數(shù)據(jù)庫(kù)Tencent Cloud VectorDB。在發(fā)布會(huì)上,騰訊方面表示,騰訊云向量數(shù)據(jù)庫(kù)最高支持10億級(jí)向量檢索規(guī)模,延遲控制在毫秒級(jí),相比傳統(tǒng)單機(jī)插件式數(shù)據(jù)庫(kù)檢索規(guī)模提升10倍,同時(shí)具備百萬(wàn)級(jí)每秒查詢(QPS)的峰值能力、向量數(shù)據(jù)庫(kù)能解決大模型預(yù)訓(xùn)練成本高、沒有“長(zhǎng)期記憶”、知識(shí)更新不足、提示詞工程復(fù)雜等問(wèn)題,突破大模型在時(shí)間和空間上的限制,加速大模型落地行業(yè)場(chǎng)景。

發(fā)布會(huì)后,騰訊云數(shù)據(jù)庫(kù)副總經(jīng)理羅云在接受包括《每日經(jīng)濟(jì)新聞》記者在內(nèi)的媒體采訪時(shí)表示:“模型的訓(xùn)練有時(shí)間和空間兩個(gè)限制。在時(shí)間上,訓(xùn)練一次大模型可能耗時(shí)數(shù)月,耗費(fèi)上千萬(wàn)美金,成本高昂,但(由于預(yù)訓(xùn)練的模式)很難把最新的數(shù)據(jù)灌注到大模型里,而客戶有時(shí)需要使用最新的數(shù)據(jù);在空間上,客戶有很多私域的數(shù)據(jù),(出于對(duì)安全的顧慮)客戶往往不愿意放在公開的場(chǎng)合讓大模型進(jìn)行訓(xùn)練,甚至連微調(diào)都不愿意把數(shù)據(jù)給到大模型的廠商。向量數(shù)據(jù)庫(kù)則很好地打破了這兩個(gè)限制。”

統(tǒng)計(jì)顯示,將騰訊云向量數(shù)據(jù)庫(kù)用于大模型預(yù)訓(xùn)練數(shù)據(jù)的分類、去重和清洗相比傳統(tǒng)方式可以實(shí)現(xiàn)10倍效率的提升,如果將向量數(shù)據(jù)庫(kù)作為外部知識(shí)庫(kù)用于模型推理,則可以將成本降低2-4個(gè)數(shù)量級(jí)。

騰訊云推出向量數(shù)據(jù)庫(kù)的背后,是大模型訓(xùn)練對(duì)數(shù)據(jù)的強(qiáng)大需求。羅云表示:“隨著大模型的成熟,未來(lái)我們可能不再需要雇傭那么多資深的軟硬件工程師,企業(yè)或許能夠更好地享受到大模型抹平技術(shù)差異帶來(lái)的紅利。因此,我們認(rèn)為企業(yè)和企業(yè)之間在未來(lái)很長(zhǎng)的一段時(shí)間的競(jìng)爭(zhēng)會(huì)在數(shù)據(jù)上,誰(shuí)能夠更好地利用數(shù)據(jù),誰(shuí)能夠更好地把數(shù)據(jù)沉淀到自己的工程里面,更好地讓數(shù)據(jù)接入到大模型和整個(gè)AI體系,誰(shuí)可能就會(huì)贏在將來(lái)。”

商業(yè)化尚在初期

今年5月前后的一個(gè)月內(nèi),全球有4家向量數(shù)據(jù)庫(kù)創(chuàng)業(yè)公司獲得新融資,其中,Pinecone完成1億美元B輪融資,WeaviateBV獲得5000萬(wàn)美元B輪融資,Chroma獲得1800萬(wàn)美元種子輪融資,Qdrant獲750萬(wàn)美元種子融資。在國(guó)內(nèi)A股市場(chǎng),今年3月以來(lái),云創(chuàng)數(shù)據(jù)(BJ835305,股價(jià)18.84元,市值25億元)、星環(huán)科技(SH688031,股價(jià)139.76元,市值169億元)、拓爾思(300229.SZ,股價(jià)25.79元,市值205.11億元)等多個(gè)向量數(shù)據(jù)庫(kù)概念股迎來(lái)股價(jià)上漲。

“很多客戶和我們提需求,基本上每天不止1到2個(gè)客戶前來(lái)咨詢向量數(shù)據(jù)庫(kù)什么時(shí)候能夠給他們使用。整體來(lái)講,大家的關(guān)注度,對(duì)向量數(shù)據(jù)庫(kù)需求的迫切度都很高。”羅云說(shuō)道。

一邊是概念火熱和需求高漲,一邊是商業(yè)化進(jìn)程有待成熟。西南證券研報(bào)指出,目前整個(gè)向量數(shù)據(jù)庫(kù)的賽道仍處于培育階段,受AI大模型熱潮催化,向量數(shù)據(jù)庫(kù)剛剛引起國(guó)內(nèi)市場(chǎng)的關(guān)注,目前主要使用者是互聯(lián)網(wǎng)巨頭公司。賽道目前處于群雄并起的階段,從融資、技術(shù)的角度上來(lái)講,目前尚未有寡頭角色出現(xiàn)。

而對(duì)于騰訊而言,騰訊云向量數(shù)據(jù)庫(kù)目前已在騰訊內(nèi)部產(chǎn)品進(jìn)行探索應(yīng)用,如騰訊視頻、QQ瀏覽器、QQ音樂(lè)等30多款國(guó)民級(jí)產(chǎn)品。以騰訊視頻的應(yīng)用為例,視頻庫(kù)中的圖片、音頻、標(biāo)題文本等內(nèi)容使用騰訊云向量數(shù)據(jù)庫(kù),月均完成的檢索和計(jì)算量高達(dá)200億次,有效滿足了版權(quán)保護(hù)、原創(chuàng)識(shí)別、相似性檢索等場(chǎng)景需求。此外,使用騰訊云向量數(shù)據(jù)庫(kù)后,QQ音樂(lè)人均聽歌時(shí)長(zhǎng)提升3.2%、騰訊視頻有效曝光人均時(shí)長(zhǎng)提升1.74%、QQ瀏覽器成本降低37.9%。

“現(xiàn)在向量數(shù)據(jù)庫(kù)是跟著AI的浪潮來(lái)走,我們的判斷是向量數(shù)據(jù)庫(kù)本身能力已經(jīng)比較能夠適應(yīng)客戶的訴求,但大家對(duì)于怎么去用好AI、國(guó)內(nèi)大模型發(fā)展的時(shí)間點(diǎn)這些都還需要一個(gè)時(shí)間周期,這是外部的市場(chǎng)環(huán)境導(dǎo)致的。隨著AI進(jìn)一步滲透到各行各業(yè),我相信向量數(shù)據(jù)庫(kù)的發(fā)展會(huì)來(lái)得很快了。”羅云最后表示。

每日經(jīng)濟(jì)新聞

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港