展會(huì)信息港展會(huì)大全

艾倫AI推出業(yè)界最大文本數(shù)據(jù)集,包含3萬億Tokens,超過Llama 2
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-08-23 18:28:41   瀏覽:13049次  

導(dǎo)讀:智東西(公眾號(hào):zhidxcom) 編譯 | 香草 編輯 |李水青 智東西8月21日消息,艾倫AI研究所(AI2)于8月19日在其官方博客發(fā)布用于訓(xùn)練大型語言模型(LLM)的文本數(shù)據(jù)集Dolma,包含3萬億個(gè)Tokens(詞例),是迄今為止最大的開放文本數(shù)據(jù)集。 ▲按子集劃分的Dolm...

智東西(公眾號(hào):zhidxcom)

編譯 | 香草

編輯 |李水青

智東西8月21日消息,艾倫AI研究所(AI2)于8月19日在其官方博客發(fā)布用于訓(xùn)練大型語言模型(LLM)的文本數(shù)據(jù)集Dolma,包含3萬億個(gè)Tokens(詞例),是迄今為止最大的開放文本數(shù)據(jù)集。

▲按子集劃分的Dolma數(shù)據(jù)屬性概覽

在AI競爭激烈的當(dāng)下,大部分科技巨頭都傾向于保守自家大模型開發(fā)的機(jī)密。AI2在博客中稱,公司希望通過公開透明化其數(shù)據(jù)集及之后的大模型,幫助更多的研究者在此基礎(chǔ)上進(jìn)一步進(jìn)行研究和開發(fā)等工作。

一、全透明構(gòu)建700億參數(shù)大模型,2024年推出

AI2由已故微軟聯(lián)合創(chuàng)始人兼慈善家保羅艾倫(Paul Allen)于2014年成立,致力于開展高影響力的AI研究和工程,宗旨是“AI為人類共同利益服務(wù)”(AI for the common good)。2017年,AI2推出了孵化器項(xiàng)目AI2 Incubator,孵化出被百度全資收購的自然語言處理公司Kitt.ai和被蘋果收購的AI圖像識(shí)別公司Xnor.ai等。

自2023年3月以來,AI2一直在著手創(chuàng)建一個(gè)開放的生成語言模型AI2 OLMo(Open Language Model),旨在促進(jìn)大規(guī)模自然語言處理(NLP)系統(tǒng)的研究。AI2稱將發(fā)布在整個(gè)項(xiàng)目中遵循的人工制品和記錄流程,以透明和開放的方式構(gòu)建OLMo。

OLMo將擁有700億級(jí)別的參數(shù)規(guī)模,預(yù)計(jì)于2024年初完成。此次公布的Dolma,便是用于OLMo的數(shù)據(jù)集,其名稱來源于“Data to feed OLMo’s Appetite”為OLMo的“胃口”提供數(shù)據(jù)。

AI2認(rèn)為理想的數(shù)據(jù)集應(yīng)該滿足開放性、代表性、規(guī)模性、可復(fù)現(xiàn)性以及風(fēng)險(xiǎn)規(guī)避性這五個(gè)標(biāo)準(zhǔn)。

像GPT-4、Claude這樣的語言模型功能強(qiáng)大且用途廣泛,但其訓(xùn)練數(shù)據(jù)卻是保密的。AI2認(rèn)為需要扭轉(zhuǎn)這一趨勢(shì),讓數(shù)據(jù)集可以免費(fèi)使用并接受監(jiān)督,也讓其他研究人員有機(jī)會(huì)在此基礎(chǔ)上建立更好版本的數(shù)據(jù)集。為了提供可復(fù)現(xiàn)的條件,AI2將公開在準(zhǔn)備數(shù)據(jù)集過程中使用到的所有開發(fā)工具。

▲AI2統(tǒng)計(jì)的常見大模型相關(guān)屬性,其中“?”表示未公開,“~”表示部分公開

盡管OpenAI和Meta等公司公布了用于構(gòu)建語言模型的數(shù)據(jù)集的部分重要統(tǒng)計(jì)數(shù)據(jù),但其中很多信息都被視為專有信息。除了阻礙審查和改進(jìn)等原因之外,還有人猜測(cè),這種封閉的方式可能是由于數(shù)據(jù)的獲取不道德或不合法。

在AI競爭激烈的背景下,大部分公司傾向于保守其模型訓(xùn)練過程的秘密。但對(duì)于其他研究人員來說,這使得這些數(shù)據(jù)集和模型更加不透明,難以研究或復(fù)現(xiàn)。

二、保證Dolma數(shù)據(jù)集質(zhì)量,AI2采取四項(xiàng)原則

在訓(xùn)練語料庫時(shí),可選擇的數(shù)據(jù)非常多,其數(shù)據(jù)量幾乎是一個(gè)天文數(shù)字。對(duì)此,AI2使用了四項(xiàng)原則來協(xié)助選擇數(shù)據(jù),分別是遵循現(xiàn)有做法、合理運(yùn)用評(píng)估套件、傾向于協(xié)助實(shí)現(xiàn)核心研究方向的決策以及采取基于危害的方法來緩解風(fēng)險(xiǎn)。這四項(xiàng)原則內(nèi)容如下:

首先,通過匹配用于創(chuàng)建其他語言數(shù)據(jù)集的方法,使更廣泛的研究界能夠利用Dolma來間接研究現(xiàn)有的或是正在開發(fā)的LLM。

其次,在做出直接影響其中一項(xiàng)任務(wù)的數(shù)據(jù)相關(guān)決策時(shí),選擇能夠提高指標(biāo)的干預(yù)措施。例如,Dolma中加入了維基百科文本,因?yàn)樗芴岣逰-12(學(xué)前及中小學(xué)教育)科學(xué)知識(shí)任務(wù)的性能。

再次,并非所有數(shù)據(jù)集決策都與基準(zhǔn)性能有關(guān),例如添加包含代碼的文檔會(huì)降低許多文本基準(zhǔn)測(cè)試的性能。AI2傾向于為其主動(dòng)或前瞻性研究加入更有用的決策。

最后,通過與法律道德專家的交談,根據(jù)其反饋評(píng)估了數(shù)據(jù)設(shè)計(jì)決策從而規(guī)避可能的風(fēng)險(xiǎn)。

三、業(yè)界最大公開文本數(shù)據(jù)集,3萬億Tokens超Llama 2

與市面上已經(jīng)公開的數(shù)據(jù)集相比,Dolma主要有兩點(diǎn)不同。首先,它比其他開放數(shù)據(jù)集規(guī)模大很多。

▲Dolma與其他公開數(shù)據(jù)集的屬性對(duì)比

由表可見,除Dolma外,目前公開數(shù)據(jù)集中數(shù)據(jù)量最大的是RedPajama,為1.2萬億Tokens,被用于Llama的訓(xùn)練。相比之下,Dolma的數(shù)據(jù)量是其兩倍多。此外,Llama 2訓(xùn)練所使用的數(shù)據(jù)集為2萬億Tokens規(guī)模,但并未公開。GPT-3訓(xùn)練使用的數(shù)據(jù)集規(guī)模為0.4萬億。

其次,它遵循AI2為AI人工制品制定的許可證ImpACT,該許可證的名稱來自于AI2的四個(gè)核心價(jià)值觀:影響力(Impact)、責(zé)任(Accountability)、協(xié)作(Collaboration)和透明(Transparency)。它將人工制品劃分為低、中、高三個(gè)級(jí)別的風(fēng)險(xiǎn),并規(guī)定了如何使用、安裝和創(chuàng)建衍生品。

根據(jù)許可,研究人員須遵守:1、提供聯(lián)系信息,并說明Dolma的預(yù)期用途;2、公開基于Dolma創(chuàng)建的任何衍生產(chǎn)品;3、遵循ImpACT分發(fā)衍生產(chǎn)品;4、不將Dolma用于一系列被禁止的用途,如軍事監(jiān)控或生成虛假信息。

結(jié)語:開放與透明為研究者提供新的探索空間

AI2發(fā)布的Dolma數(shù)據(jù)集是迄今為止最大的開放文本數(shù)據(jù)集,為訓(xùn)練大型語言模型提供了巨大的資源。在遵循風(fēng)險(xiǎn)規(guī)避等準(zhǔn)則的前提下,選取了盡量多來源和種類的數(shù)據(jù),達(dá)到3萬億Tokens級(jí)別。

Dolma的公開透明化舉措開創(chuàng)了大型數(shù)據(jù)集開源的先河,在競爭激烈的AI領(lǐng)域,鼓勵(lì)其他研究人員在其數(shù)據(jù)集的基礎(chǔ)上進(jìn)行再研究和開發(fā),有助于推動(dòng)產(chǎn)業(yè)的開放性和合作性發(fā)展。

來源:艾倫AI研究所官方博客

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港