展會信息港展會大全

LLaMA泄漏和AI對話機(jī)器人開源對研究人員意味著什么?
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-09-07 21:54:13   瀏覽:35683次  

導(dǎo)讀:原文作者:Davide Castelvecchi 計算機(jī)科學(xué)家認(rèn)為,免費開放的大型語言模型推動了創(chuàng)新的步伐。 自從OpenAI推出了ChatGPT,生成式人工智能(AI)便深受熱捧,且熱度至今未減。然而,盡管OpenAI和Google這類大型科技公司吸引了大量眼球,并一直在尋找讓它們的A...

原文作者:Davide Castelvecchi

計算機(jī)科學(xué)家認(rèn)為,免費開放的大型語言模型推動了創(chuàng)新的步伐。

自從OpenAI推出了ChatGPT,生成式人工智能(AI)便深受熱捧,且熱度至今未減。然而,盡管OpenAI和Google這類大型科技公司吸引了大量眼球,并一直在尋找讓它們的AI工具“變現(xiàn)”的方法,一些科研人員和小型機(jī)構(gòu)的軟件工程師卻在醞釀一場更安靜的革命。

隨著大部分大型科技公司日益走向神秘化,這些更小的行動者卻一直在堅守該領(lǐng)域?qū)﹂_放的初衷。他們中有小企業(yè)、非營利機(jī)構(gòu)和業(yè)余愛好者個人,他們的一些行動受到社會目標(biāo)的驅(qū)動,比如擴(kuò)大技術(shù)普及性以及減少技術(shù)的傷害。

開源AI行動旨在推動這項技術(shù)對研究人員的可及性。來源:Philippe Lejeanvre/Alamy

這場開源行動出現(xiàn)了“井噴”,紐約市AI研究所EleutherAI的主任、計算機(jī)科學(xué)家Stella Biderman說。尤其是大型語言模型(LLM),這種需要海量數(shù)據(jù)的人工神經(jīng)網(wǎng)絡(luò)驅(qū)動著各種面向文本的軟件從對話機(jī)器人到自動化翻譯器。致力于普及AI技術(shù)的紐約公司Hugging Face已經(jīng)在其網(wǎng)站上列出了超過100個開源的LLM。

LLaMA泄漏

去年,Hugging Face引領(lǐng)科研和學(xué)術(shù)志愿者組成的聯(lián)盟BigScience開發(fā)并發(fā)布了迄今最大的LLM之一。該模型名為BLOOM,是一個面向研究人員設(shè)計的多語言開源系統(tǒng)。它一直作為一個非常重要的工具:描述該系統(tǒng)的論文已有300多次引用,引用它的大部分為計算機(jī)科學(xué)研究。

2月,F(xiàn)acebook的母公司Meta推出了可供特定外部開發(fā)者免費使用的模型LLaMA,大大助推了這場開源運動。不到一周,LLaMA的代碼就被泄露到網(wǎng)上,可供任何人下載。

LLaMA的開源給AI研究人員帶來了天翻地覆的變化。它比其他LLM都小得多,意味著它不需要大型計算設(shè)備來儲存預(yù)訓(xùn)練模型或用于其他用途的改造,比如作為數(shù)學(xué)助手或是客服機(jī)器人。LLaMA最大的一版含有650億個參數(shù)這些參數(shù)是該神經(jīng)網(wǎng)絡(luò)在初始、通用訓(xùn)練中設(shè)置的各種變量。這只有BLOOM的1760億個參數(shù)的一半不到,也是Google最新的LLMPaLM2的5400億個參數(shù)的幾分之一。

“有了LLaMA,一些最有意思的新想法突然進(jìn)入了快車道。”Meta的AI研究副主席、加拿大麥吉爾大學(xué)的計算科學(xué)家Joelle Pineau說道。

開發(fā)者在泄漏的AI模型LLaMA的基礎(chǔ)上創(chuàng)建的版本能在樹莓派(Raspberry Pi)計算機(jī)上運行。來源:Dominic Harrison/Alamy

開源開發(fā)者一直在實驗進(jìn)一步壓縮LLaMA的各種方法。一些方法保持參數(shù)量不變但降低參數(shù)的精確性,而且竟然不會導(dǎo)致性能出現(xiàn)大幅下降。其他壓縮神經(jīng)網(wǎng)絡(luò)的方法還包括減少參數(shù)量,比如利用一個大型預(yù)訓(xùn)練網(wǎng)絡(luò)的響應(yīng)而不是直接用數(shù)據(jù)訓(xùn)練另一個更小的神經(jīng)網(wǎng)絡(luò)。

LLaMA泄露后不到幾周,開發(fā)者就創(chuàng)建了能用筆記本電腦運行的各種版本,甚至還能在樹莓派(Raspberry Pi)上運行,樹莓派是一個只有信用卡大小的計算機(jī),是“創(chuàng)客”(maker)社群的最愛。Hugging Face目前主要使用的是LLaMA,而且不計劃推出BLOOM-2。

AI工具的壓縮可進(jìn)一步推動它們的普及性,比勒陀利亞大學(xué)的計算機(jī)科學(xué)家Vukosi Marivate說。它可以幫助一些組織,比如 Marivate等非洲研究人員領(lǐng)導(dǎo)的Masakhane社群就想讓LLM也能用于缺少現(xiàn)有書面文本訓(xùn)練模型的語言。但推動普及性的努力仍有很長的路要走:對低收入國家的研究人員來說,即使一臺最高配置的筆記本電腦也望塵莫及。“一切都很好,”Marivate說,“但我也想請你定義一下‘便宜’的概念。”

多年以來,AI研究人員一直按照慣例將他們的代碼開源,并發(fā)布在arXiv這類服務(wù)器上。美國北卡羅來納大學(xué)的計算機(jī)科學(xué)家Colin Raffel說:“人們逐漸領(lǐng)悟到,如果我們愿意分享,這個領(lǐng)域會進(jìn)步地更快。”比如,當(dāng)前最先進(jìn)的LLM的核心技術(shù)是“Transformer架構(gòu)”,該技術(shù)由Google原創(chuàng),并開源發(fā)布。

神經(jīng)網(wǎng)絡(luò)的開源能讓研究人員看到后臺的運作,嘗試?yán)斫膺@些系統(tǒng)為何有時候會給出不可預(yù)測的回答,并從預(yù)訓(xùn)練的數(shù)據(jù)那里學(xué)會一些偏見和不良信息,美國布朗大學(xué)的計算機(jī)科學(xué)家Ellie Pavlick說。Pavlick與BigScience項目合作,也是Google AI的員工。“一個好處是很多人尤其是學(xué)術(shù)界的人都能為緩解策略出謀劃策,”她說,“如果你有一千雙眼睛盯著,你就能想出更好的辦法。”

Pavlick的團(tuán)隊對BLOOM等開源系統(tǒng)進(jìn)行了分析,并找到了發(fā)現(xiàn)和糾正從訓(xùn)練數(shù)據(jù)中帶入偏見的方法。這方面的一個經(jīng)典案例是語言模型總是把“護(hù)士”與女性以及“醫(yī)生”和男性聯(lián)系在一起。

預(yù)訓(xùn)練瓶頸

即使開源熱潮持續(xù)下去,推動語言AI變強(qiáng)大的力量還是只能來自最大玩家。只有極少數(shù)公司有能力從頭開始創(chuàng)建語言模型,并向最尖端的技術(shù)進(jìn)發(fā)。預(yù)訓(xùn)練LLM需要的資源是巨大的研究人員估計OpenAI的GPT4和Google的PaLM2使用數(shù)千萬美元的計算時間,除此之外還有很多“秘密配方”。

“我們有一些通用配方,但還有一些不會寫下來的小細(xì)節(jié),”Pavlick說,“這不是說有人給了你一些代碼,你按一下按鈕就能得到一個模型了。”

預(yù)訓(xùn)練只是少數(shù)機(jī)構(gòu)和人才能做的事,”紐約的開源軟件公司Stability AI的研究員Louis Castricato說,“這仍是一個巨大的瓶頸。”

其他研究人員提醒道,讓強(qiáng)大的語言模型更普及會增加它們被不當(dāng)利用的幾率。EleutherAI的聯(lián)合創(chuàng)始人、倫敦AI公司Conjecture的首席執(zhí)行官Connor Leahy認(rèn)為,AI很快會聰明到給人類帶來存在性風(fēng)險。他說:“我認(rèn)為這些東西都不應(yīng)該開源。”

贊助本站

人工智能實驗室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港