展會(huì)信息港展會(huì)大全

強(qiáng)化學(xué)習(xí)正在引領(lǐng)AI跨越LLM之谷 | 筆記
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-18 09:54:36   瀏覽:1104次  

導(dǎo)讀:OpenAI的研究科學(xué)家布朗(Noam Brown),這兩天在他的自我介紹中,加上了一條:OpanAI o1的共同締造者。 他在OpenAI主要研究多步推理、自我對(duì)弈和多智能體人工智能。之前布朗已經(jīng)取得成就可謂輝煌:他和FAIR(Meta)的團(tuán)隊(duì)開(kāi)發(fā)了CICERO,這是第一個(gè)在策略游...

OpenAI的研究科學(xué)家布朗(Noam Brown),這兩天在他的自我介紹中,加上了一條:OpanAI o1的共同締造者。

他在OpenAI主要研究多步推理、自我對(duì)弈和多智能體人工智能。之前布朗已經(jīng)取得成就可謂輝煌:他和FAIR(Meta)的團(tuán)隊(duì)開(kāi)發(fā)了CICERO,這是第一個(gè)在策略游戲《外交》中達(dá)到人類水平表現(xiàn)的人工智能。在卡內(nèi)基梅隆大學(xué)期間,他與導(dǎo)師一起開(kāi)發(fā)了Libratus和Pluribus,在人機(jī)對(duì)抗賽中擊敗了頂級(jí)人類撲克職業(yè)選手。

他早期的職業(yè),其實(shí)是金融交易員。布朗在美聯(lián)儲(chǔ)的國(guó)際金融市場(chǎng)部門工作,研究金融市場(chǎng)的算法交易,之前是華爾街上一名從事算法交易的工程師。

2012年,深度學(xué)習(xí)開(kāi)始進(jìn)入黃金時(shí)代,他進(jìn)入卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)系,碩士和博士的專業(yè)分別是機(jī)器人和計(jì)算機(jī)科學(xué)。2017年,布朗在Deepmind實(shí)習(xí),參與了AlphaGO Zero項(xiàng)目。

早在大模型興起之前,DeepMind用強(qiáng)化學(xué)習(xí)的方法,在游戲和博弈中,已經(jīng)取得了超人的成就,問(wèn)題在于,這種在給定領(lǐng)域的超人智能,能否泛化到其他領(lǐng)域,產(chǎn)生通用的人工智能。早在OpenAI之前,AGI已經(jīng)是DeepMind的使命:解決智能,然后解決一切。

今年3月10日,布朗在X上發(fā)布了一組推文,紀(jì)念A(yù)lphaGo戰(zhàn)勝圍棋世界冠軍8周年。他實(shí)際上是在向席爾弗(David Silver)致敬。

席爾弗是 DeepMind 的首席研究科學(xué)家,他領(lǐng)導(dǎo)了 AlphaGo 項(xiàng)目,首次在圍棋比賽中擊敗頂級(jí)職業(yè)選手;之后的AlphaZero 能自我對(duì)弈學(xué)習(xí),成為世界上最強(qiáng)大的國(guó)際象棋、將棋和圍棋程序。他還共同領(lǐng)導(dǎo)了 AlphaStar 項(xiàng)目,開(kāi)發(fā)出了世界上首個(gè)達(dá)到特級(jí)大師水平的星際爭(zhēng)霸玩家。西爾弗在谷歌的研究重點(diǎn)是基于強(qiáng)化學(xué)習(xí)的人工智能代理,共同領(lǐng)導(dǎo)了將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合的項(xiàng)目。

最近,西爾弗在MIT的一次演講中指出,強(qiáng)化學(xué)習(xí),正在引領(lǐng)AI跨越大型語(yǔ)言模型(LLM)之谷。他認(rèn)為,單靠LLMs不足以取得超級(jí)人工智能。超級(jí)規(guī)模的強(qiáng)化學(xué)習(xí)展開(kāi)了一條通向超人智能的明確路徑。其有效性已經(jīng)一再得到證明(如Atari, AlphaGo, AlphaZero......)。同樣的方法也適用于強(qiáng)大的LLM先驗(yàn)?zāi)P停ɡ鏏lphaProof)。而這一切“僅僅是開(kāi)始”。

這個(gè)大模型新時(shí)代的機(jī)會(huì),被布朗抓住了。2023年7月,布朗從Meta跳槽到OpenAI,當(dāng)時(shí)他的想法很明確:“多年來(lái),我一直在研究人工智能在撲克和外交等游戲中的自我博弈和推理。現(xiàn)在,我將探討如何使這些方法真正通用。如果成功,我們或許有一天會(huì)看到比 GPT-4 強(qiáng)大 1000 倍的大型語(yǔ)言模型。”

布朗認(rèn)為,AlphaGo在擊敗世界冠軍李世石時(shí),關(guān)鍵在于每下一步棋之前一分鐘的“思考”。AlphaGoZero的學(xué)習(xí)和推理方法,相當(dāng)于預(yù)訓(xùn)練10萬(wàn)倍的規(guī)模。布朗在撲克游戲中也發(fā)現(xiàn)了同樣的規(guī)律,并且用AI首次在撲克游戲中首次戰(zhàn)勝了人類頂級(jí)選手。2021年,瓊斯(Andy Jones)在六邊形游戲(Hex)的實(shí)驗(yàn)中,發(fā)現(xiàn)并總結(jié)了這一規(guī)律;他的論文《通過(guò)棋盤游戲擴(kuò)展縮放定律》展示了如何在蒙特卡羅樹(shù)搜索(MCTS)的訓(xùn)練計(jì)算和推理計(jì)算之間進(jìn)行權(quán)衡。增加 10 倍的 MCTS 步驟幾乎等同于多訓(xùn)練 10 倍。

布朗認(rèn)為,如果發(fā)現(xiàn)一種通用的方法,不僅限于游戲,會(huì)帶來(lái)巨大的好處。“是的,推理可能會(huì)慢上1000倍,而且會(huì)更昂貴,但是,為了研發(fā)一種治療癌癥的藥物,或者證明黎曼猜想,多少推理的代價(jià)我們不會(huì)付出呢?” 而且它會(huì)對(duì)AI大模型的安全對(duì)齊研究帶來(lái)新的方法。

o1在OpenAI準(zhǔn)備了很久,在2023年3月微軟發(fā)布了測(cè)評(píng)GPT-4的深度論文時(shí),就提出解決大模型中的幻覺(jué)問(wèn)題,需要開(kāi)發(fā)出類似人腦的“第二系統(tǒng)”,即慢思考功能。直到去年10月份,o1的研發(fā)才開(kāi)始展開(kāi),OpenAI逾百名員工參與。此時(shí)正值OpenAI董事會(huì)突然解除奧特曼的CEO職位前夕,傳得沸沸揚(yáng)揚(yáng)的OpenAI的Q*模型項(xiàng)目,主要負(fù)責(zé)人之一正是布朗。Meta的首席AI科學(xué)家楊立昆認(rèn)為布朗正在研究Q*,即強(qiáng)化學(xué)習(xí)中的Q-learning (值函數(shù)算法)。

o1預(yù)覽版和輕量版發(fā)布了,被廣泛認(rèn)可開(kāi)辟了大模型研究的新方向,也是擴(kuò)展定律的新范式。布朗回憶自去年7月加入OpenAI,現(xiàn)在這一切都發(fā)生得快于預(yù)期。

隨著最初創(chuàng)始人的紛紛離去,新一代的頂級(jí)人才正在接過(guò)火炬。o1正在接管OpenAI的一些工作關(guān)于Codebase的公關(guān)稿,已經(jīng)幾乎完全由o1撰寫。

據(jù)硅谷媒體報(bào)道,為了實(shí)現(xiàn)以1500億美元的估值融資65億美元,奧特曼可能會(huì)徹底改變OpenAI的治理結(jié)構(gòu),在2025年廢除頂層非營(yíng)利公司,讓OpenAI完全成為一家營(yíng)利性公司。

OpenAI還是原來(lái)的那家公司嗎?它的創(chuàng)始人幾乎走光了,它的治理結(jié)構(gòu)已經(jīng)改變,它所做的大模型發(fā)展方向已經(jīng)發(fā)生改變,原先從事的工作,已經(jīng)被稱為“傳統(tǒng)大模型”,F(xiàn)在,在OpenAI內(nèi)部,有些人認(rèn)為,已經(jīng)沒(méi)有必要做出一個(gè)GPT-6級(jí)別的基礎(chǔ)模型,才能達(dá)到人類水平的推理表現(xiàn),通向AGI,就差一個(gè)強(qiáng)化學(xué)習(xí)了。o1開(kāi)啟了這一進(jìn)程,并且初步證明了這一點(diǎn)。

在原聯(lián)合創(chuàng)始人兼首席科學(xué)家蘇茨克沃(Ilya Sutzkever)對(duì)于擴(kuò)展定律的信仰,成為OpenAI的靈魂。蘇茨克沃的離開(kāi),標(biāo)志著OpenAI正在進(jìn)入一個(gè)新的發(fā)展階段。

蘇茨克沃對(duì)強(qiáng)化學(xué)習(xí)的大模型不感興趣嗎?無(wú)論是當(dāng)年西爾弗關(guān)于AlphaGo的論文,還是后來(lái)OpenAI的論文Let's Verify Step by Step,蘇茨克沃都是其中的作者之一。他本人對(duì)于用強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)Superman Intelligence那一套,一點(diǎn)都不陌生,而且當(dāng)年正是他把布朗招至麾下。

如果說(shuō)實(shí)現(xiàn)AGI,就差一個(gè)強(qiáng)化學(xué)習(xí),這樣的方向,蘇茨克沃在離開(kāi)之前就已經(jīng)為OpenAI定下。他后來(lái)共同負(fù)責(zé)安全對(duì)齊工作,并且打算用4年時(shí)間解決”超級(jí)智能“的對(duì)齊問(wèn)題。但他離開(kāi)了OpenAI,創(chuàng)辦了自己的公司SSI( Safe Superintelligence Inc)并且稱他未來(lái)推出的第一個(gè)產(chǎn)品將是安全的超級(jí)人工智能。

現(xiàn)在,我們要面對(duì)三個(gè)概念,它們之間的關(guān)系要搞清楚:

超人智能(Superhuman Intelligence),在個(gè)別特定領(lǐng)域超過(guò)人類(通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn),如AlphaGo Zero)

通用人工智能(Artificial General Intelligence), 達(dá)到通用人類智能的水平,具有廣泛的靈活性和適應(yīng)性 (以為只要不停地?cái)U(kuò)展下去,通過(guò)大模型可以實(shí)現(xiàn))

超級(jí)智能(Superintelligence),在所有方面超過(guò)人類一般智能 (蘇茨克沃的新創(chuàng)業(yè)項(xiàng)目)。

o1出現(xiàn)之后,LLM+RL=AGI,AGI+Ilya=SSI或ASI ?

今年以來(lái),OpenAI公司鬧個(gè)不停,蘇茨克沃等創(chuàng)始人及團(tuán)隊(duì)主力出走、奧特曼的領(lǐng)導(dǎo)力受到質(zhì)疑、GPT-4已經(jīng)初主要對(duì)手趕超而GPT-5遲遲沒(méi)有發(fā)布,由于出現(xiàn)高達(dá)50億美元的虧損,公司的財(cái)務(wù)可持續(xù)性也令人擔(dān)憂。所以這一切,在讓OpenAI看起來(lái)像是團(tuán)正在燃燒的“垃圾箱大火”(dumpster fire),F(xiàn)在,隨著o1的發(fā)布,Open AI一時(shí)又成為街上最靚的仔,對(duì)外稱不缺算力只缺人,展開(kāi)了新一輪的招兵買馬。

“來(lái)吧,加入這場(chǎng)垃圾箱大火。”

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港