日本动态120秒免费,性感美女m131日韩视频,久久久夜夜嗨免费视频

艾倫AI推出業(yè)界最大文本數(shù)據(jù)集，包含3萬億Tokens，超過Llama 2

來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-08-23 18:28:41 瀏覽：13049次

導(dǎo)讀：智東西（公眾號(hào)：zhidxcom）編譯 | 香草編輯 |李水青智東西8月21日消息，艾倫AI研究所（AI2）于8月19日在其官方博客發(fā)布用于訓(xùn)練大型語言模型（LLM）的文本數(shù)據(jù)集Dolma，包含3萬億個(gè)Tokens（詞例），是迄今為止最大的開放文本數(shù)據(jù)集。 ▲按子集劃分的Dolm...

智東西（公眾號(hào)：zhidxcom）

編譯 | 香草

編輯 |李水青

智東西8月21日消息，艾倫AI研究所（AI2）于8月19日在其官方博客發(fā)布用于訓(xùn)練大型語言模型（LLM）的文本數(shù)據(jù)集Dolma，包含3萬億個(gè)Tokens（詞例），是迄今為止最大的開放文本數(shù)據(jù)集。

▲按子集劃分的Dolma數(shù)據(jù)屬性概覽

在AI競爭激烈的當(dāng)下，大部分科技巨頭都傾向于保守自家大模型開發(fā)的機(jī)密。AI2在博客中稱，公司希望通過公開透明化其數(shù)據(jù)集及之后的大模型，幫助更多的研究者在此基礎(chǔ)上進(jìn)一步進(jìn)行研究和開發(fā)等工作。

一、全透明構(gòu)建700億參數(shù)大模型，2024年推出

AI2由已故微軟聯(lián)合創(chuàng)始人兼慈善家保羅艾倫（Paul Allen）于2014年成立，致力于開展高影響力的AI研究和工程，宗旨是“AI為人類共同利益服務(wù)”（AI for the common good）。2017年，AI2推出了孵化器項(xiàng)目AI2 Incubator，孵化出被百度全資收購的自然語言處理公司Kitt.ai和被蘋果收購的AI圖像識(shí)別公司Xnor.ai等。

自2023年3月以來，AI2一直在著手創(chuàng)建一個(gè)開放的生成語言模型AI2 OLMo（Open Language Model），旨在促進(jìn)大規(guī)模自然語言處理（NLP）系統(tǒng)的研究。AI2稱將發(fā)布在整個(gè)項(xiàng)目中遵循的人工制品和記錄流程，以透明和開放的方式構(gòu)建OLMo。

OLMo將擁有700億級(jí)別的參數(shù)規(guī)模，預(yù)計(jì)于2024年初完成。此次公布的Dolma，便是用于OLMo的數(shù)據(jù)集，其名稱來源于“Data to feed OLMo’s Appetite”為OLMo的“胃口”提供數(shù)據(jù)。

AI2認(rèn)為理想的數(shù)據(jù)集應(yīng)該滿足開放性、代表性、規(guī)模性、可復(fù)現(xiàn)性以及風(fēng)險(xiǎn)規(guī)避性這五個(gè)標(biāo)準(zhǔn)。

像GPT-4、Claude這樣的語言模型功能強(qiáng)大且用途廣泛，但其訓(xùn)練數(shù)據(jù)卻是保密的。AI2認(rèn)為需要扭轉(zhuǎn)這一趨勢(shì)，讓數(shù)據(jù)集可以免費(fèi)使用并接受監(jiān)督，也讓其他研究人員有機(jī)會(huì)在此基礎(chǔ)上建立更好版本的數(shù)據(jù)集。為了提供可復(fù)現(xiàn)的條件，AI2將公開在準(zhǔn)備數(shù)據(jù)集過程中使用到的所有開發(fā)工具。

▲AI2統(tǒng)計(jì)的常見大模型相關(guān)屬性，其中“？”表示未公開，“~”表示部分公開

盡管OpenAI和Meta等公司公布了用于構(gòu)建語言模型的數(shù)據(jù)集的部分重要統(tǒng)計(jì)數(shù)據(jù)，但其中很多信息都被視為專有信息。除了阻礙審查和改進(jìn)等原因之外，還有人猜測(cè)，這種封閉的方式可能是由于數(shù)據(jù)的獲取不道德或不合法。

在AI競爭激烈的背景下，大部分公司傾向于保守其模型訓(xùn)練過程的秘密。但對(duì)于其他研究人員來說，這使得這些數(shù)據(jù)集和模型更加不透明，難以研究或復(fù)現(xiàn)。

二、保證Dolma數(shù)據(jù)集質(zhì)量，AI2采取四項(xiàng)原則

在訓(xùn)練語料庫時(shí)，可選擇的數(shù)據(jù)非常多，其數(shù)據(jù)量幾乎是一個(gè)天文數(shù)字。對(duì)此，AI2使用了四項(xiàng)原則來協(xié)助選擇數(shù)據(jù)，分別是遵循現(xiàn)有做法、合理運(yùn)用評(píng)估套件、傾向于協(xié)助實(shí)現(xiàn)核心研究方向的決策以及采取基于危害的方法來緩解風(fēng)險(xiǎn)。這四項(xiàng)原則內(nèi)容如下：

首先，通過匹配用于創(chuàng)建其他語言數(shù)據(jù)集的方法，使更廣泛的研究界能夠利用Dolma來間接研究現(xiàn)有的或是正在開發(fā)的LLM。

其次，在做出直接影響其中一項(xiàng)任務(wù)的數(shù)據(jù)相關(guān)決策時(shí)，選擇能夠提高指標(biāo)的干預(yù)措施。例如，Dolma中加入了維基百科文本，因?yàn)樗芴岣逰-12（學(xué)前及中小學(xué)教育）科學(xué)知識(shí)任務(wù)的性能。

再次，并非所有數(shù)據(jù)集決策都與基準(zhǔn)性能有關(guān)，例如添加包含代碼的文檔會(huì)降低許多文本基準(zhǔn)測(cè)試的性能。AI2傾向于為其主動(dòng)或前瞻性研究加入更有用的決策。

最后，通過與法律道德專家的交談，根據(jù)其反饋評(píng)估了數(shù)據(jù)設(shè)計(jì)決策從而規(guī)避可能的風(fēng)險(xiǎn)。

三、業(yè)界最大公開文本數(shù)據(jù)集，3萬億Tokens超Llama 2

與市面上已經(jīng)公開的數(shù)據(jù)集相比，Dolma主要有兩點(diǎn)不同。首先，它比其他開放數(shù)據(jù)集規(guī)模大很多。

▲Dolma與其他公開數(shù)據(jù)集的屬性對(duì)比

由表可見，除Dolma外，目前公開數(shù)據(jù)集中數(shù)據(jù)量最大的是RedPajama，為1.2萬億Tokens，被用于Llama的訓(xùn)練。相比之下，Dolma的數(shù)據(jù)量是其兩倍多。此外，Llama 2訓(xùn)練所使用的數(shù)據(jù)集為2萬億Tokens規(guī)模，但并未公開。GPT-3訓(xùn)練使用的數(shù)據(jù)集規(guī)模為0.4萬億。

其次，它遵循AI2為AI人工制品制定的許可證ImpACT，該許可證的名稱來自于AI2的四個(gè)核心價(jià)值觀：影響力（Impact）、責(zé)任（Accountability）、協(xié)作（Collaboration）和透明（Transparency）。它將人工制品劃分為低、中、高三個(gè)級(jí)別的風(fēng)險(xiǎn)，并規(guī)定了如何使用、安裝和創(chuàng)建衍生品。

根據(jù)許可，研究人員須遵守：1、提供聯(lián)系信息，并說明Dolma的預(yù)期用途；2、公開基于Dolma創(chuàng)建的任何衍生產(chǎn)品；3、遵循ImpACT分發(fā)衍生產(chǎn)品；4、不將Dolma用于一系列被禁止的用途，如軍事監(jiān)控或生成虛假信息。

結(jié)語：開放與透明為研究者提供新的探索空間

AI2發(fā)布的Dolma數(shù)據(jù)集是迄今為止最大的開放文本數(shù)據(jù)集，為訓(xùn)練大型語言模型提供了巨大的資源。在遵循風(fēng)險(xiǎn)規(guī)避等準(zhǔn)則的前提下，選取了盡量多來源和種類的數(shù)據(jù)，達(dá)到3萬億Tokens級(jí)別。

Dolma的公開透明化舉措開創(chuàng)了大型數(shù)據(jù)集開源的先河，在競爭激烈的AI領(lǐng)域，鼓勵(lì)其他研究人員在其數(shù)據(jù)集的基礎(chǔ)上進(jìn)行再研究和開發(fā)，有助于推動(dòng)產(chǎn)業(yè)的開放性和合作性發(fā)展。

來源：艾倫AI研究所官方博客

艾倫AI推出業(yè)界最大文本數(shù)據(jù)集，包含3萬億Tokens，超過Llama 2
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-08-23 18:28:41 瀏覽：13049次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

艾倫AI推出業(yè)界最大文本數(shù)據(jù)集，包含3萬億Tokens，超過Llama 2 來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-08-23 18:28:41 瀏覽：13049次