美女禁止的网站免费,手机看片你懂得,老熟妇在线视频色拍a偷拍

訓(xùn)出GPT-5短缺20萬億token！OpenAI被曝計劃建「數(shù)據(jù)市場」

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-09 09:16:32 瀏覽：8435次

導(dǎo)讀：新智元報道編輯：桃子【新智元導(dǎo)讀】全網(wǎng)高質(zhì)量數(shù)據(jù)集告急！OpenAI、Anthropic等AI公司正在開拓新方法，訓(xùn)練下一代AI模型。全網(wǎng)真的無數(shù)據(jù)可用了！外媒報道稱，OpenAl、Anthropic等公司正在努力尋找足夠的信息，來訓(xùn)練下一代人工智能模型。前幾天，Open...

新智元報道

編輯：桃子【新智元導(dǎo)讀】全網(wǎng)高質(zhì)量數(shù)據(jù)集告急！OpenAI、Anthropic等AI公司正在開拓新方法，訓(xùn)練下一代AI模型。全網(wǎng)真的無數(shù)據(jù)可用了！

外媒報道稱，OpenAl、Anthropic等公司正在努力尋找足夠的信息，來訓(xùn)練下一代人工智能模型。

前幾天，OpenAI和微軟被曝出正在聯(lián)手打造超算「星際之門」，解決算力難題。

然而，數(shù)據(jù)也是訓(xùn)練下一代強大模型，最重要的一味丹藥。

面對窮盡互聯(lián)網(wǎng)的數(shù)據(jù)難題，AI初創(chuàng)、互聯(lián)網(wǎng)大廠真的坐不住了。

GPT-5訓(xùn)練，用上了YouTube視頻

不論是下一代GPT-5、還是Gemini、Grok等強大系統(tǒng)的開發(fā)，都需要從大量的海洋數(shù)據(jù)中學(xué)習(xí)。

可以預(yù)見的是，互聯(lián)網(wǎng)中高質(zhì)量公共數(shù)據(jù)已經(jīng)變得非常稀缺。

與此同時，一些數(shù)據(jù)所有者，比如Reddit等機構(gòu)，制定政策阻止AI公司的訪問數(shù)據(jù)。

一些高管和研究人員稱，由于對高質(zhì)量文本數(shù)據(jù)的需求，可能會在2年內(nèi)超過供應(yīng)，這可能會減緩人工智能的發(fā)展。

也包括2022年11月，就有MIT等研究人員警告，機器學(xué)習(xí)數(shù)據(jù)集可能會在2026年之前耗盡所有「高質(zhì)量語言數(shù)據(jù)」。

論文地址：https://arxiv.org/pdf/2211.04325.pdf

WSJ報道稱，這些人工智能公司正在尋找未開發(fā)的信息源，并重新思考如何訓(xùn)練先進的AI系統(tǒng)。

知情人士透露，OpenAI已經(jīng)在討論如何通過轉(zhuǎn)錄YouTube公開視頻，來訓(xùn)練下一個模型GPT-5。

為了獲取更多真實數(shù)據(jù)，OpenAI還曾與不同機構(gòu)合作簽署協(xié)議，以便雙方共享部分內(nèi)容和技術(shù)。

還有一些公司采用AI生成的合成數(shù)據(jù)，作為訓(xùn)練材料。

不過，這種方法實際上可能會造成嚴重的故障。

此前，萊斯大學(xué)和斯坦福團隊的研究發(fā)現(xiàn)，將AI生成的內(nèi)容喂給模型，尤其經(jīng)過5次迭代后，只會導(dǎo)致性能下降。

研究人員對此給出一種解釋，叫做「模型自噬障礙」（MAD）。

論文地址：https://arxiv.org/abs/2307.01850

對于AI合成數(shù)據(jù)的使用，在這些公司都是秘密進行的。這種解決方案已然被視為一種新的競爭優(yōu)勢。

AI研究Ari Morcos表示，「數(shù)據(jù)短缺」是一個前沿的研究問題。他在去年創(chuàng)立DatologyAI之前。曾在Meta Platforms和谷歌的DeepMind部門工作。

他的公司建立了改進數(shù)據(jù)選擇的工具，可以幫助公司以更低的成本訓(xùn)練AI模型.

「不過目前還沒有成熟的方法可以做到這一點」。

數(shù)據(jù)稀缺，成為永恒

數(shù)據(jù)、算力、算法都是訓(xùn)練強大人工智能重要的資源之一。

對于訓(xùn)練ChatGPT、Gemini這樣的大模型完全基于互聯(lián)網(wǎng)上獲取的文本數(shù)據(jù)打造的，包括科學(xué)研究、新聞報道和維基百科條目。

這些材料被分成「詞塊」單詞和單詞的一部分，模型利用這些詞塊來學(xué)習(xí)如何形成類人的表達方式。

一般來說，AI模型接受訓(xùn)練的數(shù)據(jù)越多，能力就越強。

OpenAI正是在這種策略上大大投入，才使得ChatGPT名聲遠揚。

不過一直以來，OpenAI從未透露過關(guān)于GPT-4的訓(xùn)練細節(jié)。

但研究機構(gòu)Epoch研究人員Pablo Villalobos估計，GPT-4是在多達12萬億個token上訓(xùn)練的。

他繼續(xù)表示，基于Chinchilla縮放定律的原理，如果繼續(xù)遵循這樣擴展軌跡，像GPT-5這樣的AI系統(tǒng)將需要60萬億-100萬億token的數(shù)據(jù)。

利用所有可用的高質(zhì)最語言和圖像數(shù)據(jù)，仍可能會留下10萬億到20萬億，甚至更多的token的缺口，目前尚不清楚如何彌合這一差距。

兩年前，Villalobos在論文中寫道，到2024年中期，高質(zhì)量數(shù)據(jù)供不應(yīng)求的可能性為50%。到2026年，供不應(yīng)求的可能概率達到90%。

不過，現(xiàn)在他們變得樂觀了一些，并估計這一時間將推遲到2028年。

大多數(shù)在線數(shù)據(jù)對于AI的訓(xùn)練是無用的，因為它們包含了大量的句子片段、污染數(shù)據(jù)等，或者不能增加模型的知識。

Villalobos估計，只有一小部分互聯(lián)網(wǎng)對模型訓(xùn)練會有用，可能只有CommonCrawl收集的信息的1/10。

與此同時，社交媒體平臺、新聞出版商和其他公司一直在限制AI公司，使用自家平臺數(shù)據(jù)進行人工智能訓(xùn)練，因為擔(dān)心公平補償?shù)葐栴}。

而且公眾也不愿意交出私人對話數(shù)據(jù)（比如iMessage上的聊天記錄）來幫助訓(xùn)練模型。

然而，小扎最近把Meta在其平臺上獲取數(shù)據(jù)的能力，吹捧為Al研究工作的一大優(yōu)勢。

他對外公開稱，Meta可以在其網(wǎng)絡(luò)（包括Facebook和Instagram）上挖掘數(shù)千億張公開共享的圖片和視頻，這些圖片和視頻的總量超過了大多數(shù)常用的數(shù)據(jù)集。

數(shù)據(jù)選擇工具的初創(chuàng)公司DatologyAI使用可一種稱為「課程學(xué)習(xí)」的策略。

在這種策略中，數(shù)據(jù)以特定的序列被輸入到語言模型中，希望人工智能能夠在概念之間形成更智能的連接。

在2022年的一篇論文中，Datalogy AI研究人員Morcos和合著者估計，如果數(shù)據(jù)正確，模型可以用一半的時間取得同樣的結(jié)果。

這有可能降低訓(xùn)練和運行大型生成式人工智能系統(tǒng)的巨大成本。

不過，到目前為止，其他的研究表明，「課程學(xué)習(xí)」的方法并不有效。

Morcos表示團隊正在調(diào)整這一方法，這是深度學(xué)習(xí)最骯臟的秘密。

OpenAI谷歌要建「數(shù)據(jù)市徹？

奧特曼曾在去年對外透露，公司正在研究訓(xùn)模型的新方法。

「我認為，我們正處于這些巨型模型時代的末期。我們會用其他方法讓它們變得更好」。

知情人士表示，OpenAI還討論了創(chuàng)建一個「數(shù)據(jù)市徹。

在這個市場上，OpenAI它可以建立一種方法，來確定每個數(shù)據(jù)點對最終訓(xùn)練模型的貢獻，并向該內(nèi)容的提供商支付費用。

同樣的想法，也在谷歌內(nèi)部進行了討論。

目前，研究人員一直努力創(chuàng)建這樣一個系統(tǒng)，暫不清楚是否會找到突破口。

據(jù)知情人士透露，高管們已經(jīng)討論過使用其自動語音識別工具Whisper在互聯(lián)網(wǎng)上轉(zhuǎn)錄高質(zhì)量的視頻和音頻示例。

其中一些將通過YouTube公共視頻進行，并且部分數(shù)據(jù)已經(jīng)用于訓(xùn)練GPT-4。

下一步，合成數(shù)據(jù)

一些公司也在嘗試制作自己的數(shù)據(jù)。

喂養(yǎng)AI生成的文本，被認為是計算機科學(xué)領(lǐng)域的「近親繁殖」。

這樣的模型往往會輸出沒有意義的內(nèi)容，一些研究人員將其稱為「模型崩潰」。

OpenAI和Anthropic的研究人員正試圖通過創(chuàng)建所謂的更高質(zhì)量的合成數(shù)據(jù)來避免這些問題。

在最近的一次采訪中，Anthropic的首席科學(xué)家JaredKaplan表示，某些類型的合成數(shù)據(jù)可能會有所幫助。同時，OpenAI也在探索合成數(shù)據(jù)的可能性。

許多研究數(shù)據(jù)問題的人都樂觀認為，「數(shù)據(jù)短缺」解決方案終會出現(xiàn)。

參考資料：https://www.wsj.com/tech/ai/ai-training-data-synthetic-openai-anthropic-9230f8d8?mod=tech_trendingnow_article_pos2

相關(guān)熱詞： 訓(xùn)出 GPT-5 短缺 20萬億 token OpenAI

訓(xùn)出GPT-5短缺20萬億token！OpenAI被曝計劃建「數(shù)據(jù)市場」
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-09 09:16:32 瀏覽：8435次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

訓(xùn)出GPT-5短缺20萬億token！OpenAI被曝計劃建「數(shù)據(jù)市場」 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-09 09:16:32 瀏覽：8435次