展會(huì)信息港展會(huì)大全

AI 時(shí)代,這家公司想做一個(gè)免費(fèi)數(shù)據(jù)庫(kù)
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2023-07-19 05:13:43   瀏覽:16143次  

導(dǎo)讀:數(shù)據(jù)可能是大模型驅(qū)動(dòng)下,最先走向商業(yè)落地的領(lǐng)域之一。過(guò)去一個(gè)月,不少行業(yè)人士認(rèn)為,隨著算力成本的降低、開(kāi)源模型的進(jìn)步、以及模型部署服務(wù)的滲透,數(shù)據(jù)可能是軟件公司利用大模型做出差異化,最重要的因素。 數(shù)據(jù)庫(kù)領(lǐng)域的領(lǐng)頭羊 Snowflake 和 Databricks...

數(shù)據(jù)可能是大模型驅(qū)動(dòng)下,最先走向商業(yè)落地的領(lǐng)域之一。過(guò)去一個(gè)月,不少行業(yè)人士認(rèn)為,隨著算力成本的降低、開(kāi)源模型的進(jìn)步、以及模型部署服務(wù)的滲透,數(shù)據(jù)可能是軟件公司利用大模型做出差異化,最重要的因素。

數(shù)據(jù)庫(kù)領(lǐng)域的領(lǐng)頭羊 Snowflake 和 Databricks 均在各自的大會(huì)上,描繪了大模型+數(shù)據(jù)的理想前景現(xiàn)在由數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家才能取數(shù)、用數(shù)的場(chǎng)景,未來(lái)人人可得。

盡管實(shí)現(xiàn)這一圖景還需要很多技術(shù)、工程、場(chǎng)景上的探索,但數(shù)據(jù)是大模型時(shí)代絕對(duì)的主角。相應(yīng)地,承載數(shù)據(jù)調(diào)度的數(shù)據(jù)庫(kù)也會(huì)迎來(lái)新一輪變革。

日前,國(guó)內(nèi)數(shù)據(jù)庫(kù)廠(chǎng)商 PingCAP 在用戶(hù)峰會(huì)上,分享了關(guān)于 AI 時(shí)代數(shù)據(jù)庫(kù)的新思考。

如果為全世界所有的開(kāi)發(fā)者提供一個(gè)免費(fèi)的數(shù)據(jù)庫(kù),那數(shù)據(jù)庫(kù)架構(gòu)應(yīng)該是什么樣的?

五年前,PingCAP 的兩位聯(lián)合創(chuàng)始人劉奇和黃東旭的結(jié)論是:「這起碼要是個(gè)云原生的架構(gòu),否則沒(méi)有辦法應(yīng)對(duì)不同用戶(hù)各種各樣的彈性、各種各樣的需求!

現(xiàn)在,黃東旭表示,「這個(gè)經(jīng)典架構(gòu)搬到云上想要支撐這個(gè)需求,PingCAP 得賠死了!巩(dāng) AI 正在改寫(xiě)軟件行業(yè)時(shí),PingCAP 推出了新一代架構(gòu)的數(shù)據(jù)庫(kù)TiDB Serverless。

劉奇認(rèn)為,TiDB Serverless 從架構(gòu)上更系統(tǒng)地做到 AI ready,當(dāng)「算算分離、存存分離、存算分離,這個(gè)時(shí)候非常容易引入 AI」。

AI 時(shí)代的數(shù)據(jù)庫(kù)架構(gòu)

作為軟件公司,劉奇對(duì)這波「AI 重塑軟件」有兩個(gè)直接體感一個(gè)是代碼,還有一個(gè)是數(shù)據(jù)。

峰會(huì)上,他用一個(gè)「驚人」的數(shù)字來(lái)闡述 AI 變革過(guò)去七個(gè)月,GitHub 上新增的原代碼已經(jīng)有超過(guò) 46% 由 AI 生成。「也就是說(shuō),如果從軟件開(kāi)發(fā)效率的角度去看,AI 已經(jīng)完成了差不多一半的人類(lèi)的工作,這是短短過(guò)去七個(gè)月的時(shí)間發(fā)生的事情」。

在 AI 時(shí)代到來(lái)之前,要先編程把各種各樣的輔助工具編出來(lái),再運(yùn)行。但在今天,沒(méi)有寫(xiě)一行代碼,只提了個(gè)要求,就有結(jié)果了。數(shù)據(jù)消費(fèi)的門(mén)檻變得極低,可以預(yù)見(jiàn),數(shù)據(jù)將呈十倍、百倍規(guī)模的增長(zhǎng),這會(huì)對(duì)數(shù)據(jù)庫(kù)帶來(lái)巨大的挑戰(zhàn)。

劉奇在峰會(huì)上分享數(shù)據(jù)庫(kù)領(lǐng)域的變化 | 圖片來(lái)源:PingCAP

對(duì)此,PingCAP 創(chuàng)始人兼 CEO 劉奇認(rèn)為,團(tuán)隊(duì)于四年前開(kāi)始預(yù)研、到現(xiàn)在正式商用的 TiDB Serverless 數(shù)據(jù)庫(kù),可以從架構(gòu)上滿(mǎn)足 AI 帶來(lái)的新需求。

TiDB Serverless 數(shù)據(jù)庫(kù)架構(gòu)簡(jiǎn)化了應(yīng)用的開(kāi)發(fā),讓客戶(hù)不必再花時(shí)間在數(shù)據(jù)庫(kù)上,把復(fù)雜的事情交給 PingCAP 的系統(tǒng)自動(dòng)化處理,而把自己的時(shí)間精力投資在業(yè)務(wù)創(chuàng)新上。過(guò)去,PingCAP 從解決 MySQL 分庫(kù)分表問(wèn)題,到 HTAP 架構(gòu)、云原生,再到 TiDB Serverless 數(shù)據(jù)庫(kù),都是這一理念的延伸。

PingCAP 聯(lián)合創(chuàng)始人兼 CTO 黃東旭,在峰會(huì)的「年度保留節(jié)目」「下一代數(shù)據(jù)庫(kù)」主題演講上進(jìn)一步拆解了 TiDB Serverless 數(shù)據(jù)庫(kù)的由來(lái)。

他認(rèn)為,無(wú)論技術(shù)世界如何變化,穩(wěn)定性、性能、高可用、易用性與工具生態(tài),永遠(yuǎn)都是用戶(hù)對(duì)數(shù)據(jù)庫(kù)的重要關(guān)注點(diǎn)。并且,下一代數(shù)據(jù)庫(kù)還面臨著新的要求和挑戰(zhàn):

除了極致的性能支持海量數(shù)據(jù)外,性能的可預(yù)測(cè)性成為關(guān)注焦點(diǎn);

線(xiàn)性開(kāi)發(fā)體驗(yàn),數(shù)據(jù)庫(kù)擴(kuò)縮容對(duì)應(yīng)用透明;

高效的成本控制,可以零成本起步(Scale-to-Zero);

多租戶(hù)支持成為新常態(tài),不僅要實(shí)現(xiàn)隔離,還要實(shí)現(xiàn)數(shù)據(jù)的共享。

為此,在重新設(shè)計(jì) TiDB Serverless 的時(shí)候,PingCAP 定下了一個(gè)規(guī)范:「我們應(yīng)該做的是數(shù)據(jù)庫(kù)的服務(wù)化,而不是服務(wù)化的數(shù)據(jù)庫(kù)!

黃東旭介紹,8 年前一開(kāi)始設(shè)計(jì) TiDB 數(shù)據(jù)庫(kù)時(shí),他看到的東西就是一臺(tái)臺(tái)具體的服務(wù)器、CPU、內(nèi)存、磁盤(pán),基于這些東西來(lái)構(gòu)造 TiDB,但是現(xiàn)在到 Serverless 版本的數(shù)據(jù)庫(kù),重新再去設(shè)計(jì)系統(tǒng)時(shí),他看到的已經(jīng)不是這些 CPU、磁盤(pán)、服務(wù)器,而是云上的服務(wù),EC2 虛擬機(jī)、對(duì)象存儲(chǔ)、甚至是云廠(chǎng)商的 RDS(關(guān)系型數(shù)據(jù)庫(kù))他想在新的云原生的工程哲學(xué)里充分利用云的基礎(chǔ)設(shè)施,這也是 TiDB Serverless 能把成本推到當(dāng)前的極限水平的核心原因。

掀開(kāi)最新一代數(shù)據(jù)庫(kù) TiDB Serverless 的引擎蓋,里面大概有三個(gè)新的東西:

換了新的云原生的引擎 CSE(Cloud-native Storage Engine)架構(gòu);

在 TiDB 引入了邏輯上的 Key Space;

Resource Control 以及 RU 的概念,從上到下做全局流控。從而實(shí)現(xiàn)了無(wú)需資源規(guī)劃、秒級(jí)啟動(dòng)、0 元起步、按使用付費(fèi)、極致彈性的數(shù)據(jù)庫(kù)服務(wù)。

過(guò)去幾個(gè)月的時(shí)間里,TiDB Serverless beta 版已經(jīng)擁有超過(guò) 1 萬(wàn)個(gè)活躍的集群。

小模型服務(wù)企業(yè)場(chǎng)景

PingCAP 副總裁劉松認(rèn)為,數(shù)據(jù)庫(kù)正經(jīng)歷著從云原生數(shù)據(jù)庫(kù)到 Serverless 數(shù)據(jù)庫(kù),再到擁抱 AI,將 AI 與數(shù)據(jù)庫(kù)進(jìn)行融合的大方向。TiDB Serverless 數(shù)據(jù)庫(kù)作為 PingCAP 全新一代的架構(gòu),可以和 HTAP、AI 融合,成為三位一體的創(chuàng)新。

這些技術(shù)融合之后,下一步要看 AI 和數(shù)據(jù)庫(kù)融合怎么才能提升數(shù)據(jù)庫(kù)的處理能力、分析能力。

對(duì)于 AI 對(duì)數(shù)據(jù)庫(kù)帶來(lái)的變革,劉奇認(rèn)為,AI 跟數(shù)據(jù)庫(kù)應(yīng)用的結(jié)合有更多的層面。最廣為熟知的場(chǎng)景是用自然語(yǔ)言與數(shù)據(jù)庫(kù)交互,就自動(dòng)完成了數(shù)據(jù)分析的工作。

但是,還有其他中間和底層的環(huán)節(jié),并且這些環(huán)節(jié)很多時(shí)候跟大模型無(wú)關(guān)。比如,可以用數(shù)據(jù)訓(xùn)練一個(gè)小 AI 模型,來(lái)預(yù)測(cè)用戶(hù) workload(工作負(fù)載)的變化,用戶(hù)會(huì)感覺(jué):數(shù)據(jù)好像本來(lái)就在這,分析速度非?臁Kf(shuō):「之前跑的一個(gè) workload,我們現(xiàn)在快了幾十倍,結(jié)果看起來(lái)也是對(duì)的,突然有這么大的改變,會(huì)讓人覺(jué)得難以置信」。

小模型正在發(fā)揮著超出預(yù)期的價(jià)值,這似乎有點(diǎn)反常。事實(shí)上,自 ChatGPT 以來(lái),讓 B 端企業(yè)用戶(hù)再次為AI驚喜的是大模型的通用能力,可以解決根據(jù)小模型一個(gè)場(chǎng)景一個(gè)場(chǎng)景訓(xùn)練的「項(xiàng)目制」工程。

對(duì)于小模型的通用性,劉奇認(rèn)為,當(dāng)訓(xùn)練參數(shù)達(dá)到 120 億、160 億的時(shí)候,模型的知識(shí)豐富度已經(jīng)很高了。而且,過(guò)去一段時(shí)間,小模型訓(xùn)練也很充分,起步的訓(xùn)練量在 1TB 的 Token,這樣訓(xùn)練出來(lái)的結(jié)果至少是高中大學(xué)生的水平,再進(jìn)到不同的行業(yè)做一些專(zhuān)有訓(xùn)練,其實(shí)也具備比較強(qiáng)的通用性。但調(diào)用 OpenAI 的 API,特別是 GPT-4 非常貴,以現(xiàn)在的成本沒(méi)有辦法做到人人可用。

另外,模型怎么跟互聯(lián)網(wǎng)結(jié)合,讓它能變得更加通用,現(xiàn)在這一技術(shù)也相對(duì)比較成熟。

比如要完成一個(gè)任務(wù),允許模型使用工具(包括上網(wǎng)搜索關(guān)鍵詞),經(jīng)過(guò)幾次的反復(fù)也能完成工作!大模型也許不必裝那么多知識(shí),關(guān)鍵是推理能力到什么程度,剩下的可以依據(jù)推理能力把任務(wù)完成!剐∧P屯评砟芰Φ倪M(jìn)步,是衡量可用性的重要因素。

他認(rèn)為,有一些目前還沒(méi)有開(kāi)源、訓(xùn)練量沒(méi)那么大,已經(jīng)證明了推理能力可以顯著改變,甚至可以超過(guò) GPT-3.5。盡管不是全領(lǐng)域,是在某一方面,或者某幾方面已經(jīng)做到了。

更重要的是,用企業(yè)安全合規(guī)的標(biāo)準(zhǔn)來(lái)運(yùn)維,小模型往往是更好的選擇,它會(huì)更加專(zhuān)用。「如果把 AI 植入到各個(gè)環(huán)節(jié),很多地方的應(yīng)用都是專(zhuān)用的小的模型,它的速度需要很快做出預(yù)測(cè);同時(shí)需要考慮到用戶(hù)本身數(shù)據(jù)的安全合規(guī),用戶(hù)也不允許你把數(shù)據(jù)發(fā)出去給一個(gè)大模型,我的數(shù)據(jù)必須在我自己的地方」。

對(duì)于外界關(guān)心的 PingCAP 會(huì)接入哪家大模型,劉奇再次強(qiáng)調(diào)了小模型,尤其是開(kāi)源小模型的價(jià)值。他說(shuō),如果超過(guò)千億的參數(shù)是大模型,那么現(xiàn)在有大量數(shù)百億參數(shù)的小模型進(jìn)步速度非?,超出了所有人的預(yù)期。

「當(dāng)初誰(shuí)也沒(méi)有想到能夠在短短的半年時(shí)間就有模型敢出來(lái)和 OpenAI 叫板,小模型想達(dá)到相對(duì)接近的能力需要多少年,現(xiàn)在我們發(fā)現(xiàn)至少有非常強(qiáng)的信心,一年之內(nèi)就可以看到開(kāi)源的小模型能夠做到這一點(diǎn),同時(shí)能更好的滿(mǎn)足用戶(hù)對(duì)于數(shù)據(jù)的要求,因?yàn)槟銛?shù)據(jù)不用出我們的服務(wù),就能做到端到端的合規(guī)!

從「算算分離、存存分離、存算分離」的 TiDB Serverless 架構(gòu),再到小模型的選擇,PingCap 做出了實(shí)踐其 AI 時(shí)代數(shù)據(jù)庫(kù)服務(wù)商轉(zhuǎn)型的重要一步。當(dāng)數(shù)據(jù)量成倍增長(zhǎng)時(shí),「服務(wù)化+數(shù)據(jù)庫(kù)」的邏輯,顯然已經(jīng)成為數(shù)據(jù)平臺(tái)們的共識(shí)。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港