展會(huì)信息港展會(huì)大全

全球首個(gè)AI科學(xué)家!一口氣交出4篇頂會(huì)級(jí)論文,但會(huì)偷偷“開(kāi)掛”改腳本
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-08-15 11:09:47   瀏覽:2844次  

導(dǎo)讀:智東西(公眾號(hào):zhidxcom) 作者 | 李水青 編輯 | 云鵬 每當(dāng)AI取得重大進(jìn)展,研究人員們常開(kāi)玩笑:什么時(shí)候讓AI來(lái)為我們寫論文? 現(xiàn)在,AI創(chuàng)作科研論文成了現(xiàn)實(shí),且撰寫成本低至約15美元。 智東西8月14日消息,8月13日,日本的Sakana AI團(tuán)隊(duì)聯(lián)合牛津大學(xué)、...

智東西(公眾號(hào):zhidxcom)

作者 | 李水青

編輯 | 云鵬

每當(dāng)AI取得重大進(jìn)展,研究人員們常開(kāi)玩笑:“什么時(shí)候讓AI來(lái)為我們寫論文?”

現(xiàn)在,AI創(chuàng)作科研論文成了現(xiàn)實(shí),且撰寫成本低至約15美元。

智東西8月14日消息,8月13日,日本的Sakana AI團(tuán)隊(duì)聯(lián)合牛津大學(xué)、不列顛哥倫比亞大學(xué)的研究員推出了一個(gè)AI科學(xué)家(The AI Scientist),這是一個(gè)基于大模型的自動(dòng)化科研智能體(Agent)。

給它一個(gè)寬泛的研究領(lǐng)域,它就能像人一樣創(chuàng)作一篇AI領(lǐng)域論文。

“AI程序員”的編程技能,對(duì)AI科學(xué)家來(lái)說(shuō)只是能力一環(huán),頭腦風(fēng)暴、代碼運(yùn)行、實(shí)驗(yàn)結(jié)果總結(jié)、可視化、自動(dòng)評(píng)審對(duì)它來(lái)說(shuō)都不在話下。

比如,以下這篇名為《Dualscale Diffusion:低維生成模型中的自適應(yīng)特征平衡(Dualscale Diffusion:Adaptive feature balancing for low-dimensional generative models)》的論文就是由AI科學(xué)家所作。在AI科學(xué)家自主完成并經(jīng)同行評(píng)審的實(shí)驗(yàn)中,其完成的論文取得了優(yōu)秀的實(shí)證效果,已能達(dá)到機(jī)器學(xué)習(xí)頂會(huì)“弱接受”標(biāo)準(zhǔn)。

論文地址:https://sakana.ai/assets/ai-scientist/adaptive_dual_scale_denoising.pdf

團(tuán)隊(duì)在AI科學(xué)家項(xiàng)目中引用了各種前沿模型,例如GPT-4o和Sonnet等閉源模型,以及DeepSeek和Llama 3等開(kāi)源模型。

據(jù)悉,AI科學(xué)家主要有以下亮點(diǎn):

1、這是一個(gè)完全由AI驅(qū)動(dòng)的自動(dòng)化科研系統(tǒng),專注于機(jī)器學(xué)習(xí)領(lǐng)域的研究。

2、它實(shí)現(xiàn)了研究全鏈條的自動(dòng)化,從靈感迸發(fā)、代碼編寫與運(yùn)行到實(shí)驗(yàn)結(jié)果的總結(jié)、可視化,并最終撰寫成完整的科學(xué)論文。

3、它創(chuàng)新性地引入了自動(dòng)化同行評(píng)審機(jī)制,用以評(píng)估產(chǎn)出的論文,提供反饋并持續(xù)優(yōu)化成果,評(píng)估準(zhǔn)確度已接近人類水平。

4、這一自動(dòng)化科研流程持續(xù)循環(huán),開(kāi)放并不斷積累知識(shí),模擬人類科學(xué)界的運(yùn)作模式。

5、在初步實(shí)測(cè)中,它已涉足機(jī)器學(xué)習(xí)多個(gè)領(lǐng)域并取得成果,如在擴(kuò)散模型、Transformer架構(gòu)及Grokking等領(lǐng)域均有所貢獻(xiàn)。

AI科學(xué)家論文地址:https://arxiv.org/abs/2408.06292/

AI科學(xué)家開(kāi)源代碼及實(shí)驗(yàn)結(jié)果地址:https://github.com/SakanaAI/AI-Scientist

▲《AI科學(xué)家:向全自動(dòng)開(kāi)放式科學(xué)發(fā)現(xiàn)邁進(jìn)》論文

一、4步完成科研論文,達(dá)到AI頂會(huì)接受標(biāo)準(zhǔn)

聽(tīng)說(shuō)過(guò)AI詩(shī)人、AI畫家、AI程序員,現(xiàn)在AI科學(xué)家也出現(xiàn)了。

AI科學(xué)家是一個(gè)全面自動(dòng)化的論文生成系統(tǒng),它充分利用了最前沿的大模型。

它從一個(gè)基礎(chǔ)性的初始代碼庫(kù)出發(fā),比如GitHub上現(xiàn)成的開(kāi)源研究代碼,只要給定一個(gè)寬泛的研究領(lǐng)域,AI科學(xué)家就能完成從創(chuàng)意構(gòu)思、文獻(xiàn)調(diào)研、實(shí)驗(yàn)設(shè)計(jì)、實(shí)驗(yàn)迭代、圖表制作、論文撰寫到初步審核的全流程工作,產(chǎn)出富含深刻見(jiàn)解的學(xué)術(shù)論文。

更令人稱奇的是,AI科學(xué)家能以開(kāi)放循環(huán)的方式持續(xù)運(yùn)行,它不斷學(xué)習(xí)之前的創(chuàng)意與反饋,以此優(yōu)化后續(xù)的研究想法,這一過(guò)程高度模擬了人類科學(xué)界的運(yùn)作模式。

▲AI科學(xué)家的模式圖

AI科學(xué)家的工作流程主要包含四大環(huán)節(jié):

創(chuàng)意萌發(fā):從給定的起始模板出發(fā),AI科學(xué)家會(huì)開(kāi)啟“頭腦風(fēng)暴”模式,圍繞現(xiàn)有主題挖掘出一系列新穎的研究方向。這個(gè)模板不僅包含了基礎(chǔ)代碼框架,還配備了LaTeX文件夾,內(nèi)含樣式文件和章節(jié)標(biāo)題預(yù)設(shè),為后續(xù)的論文撰寫打下基矗AI科學(xué)家在自由探索的過(guò)程中,還會(huì)借助學(xué)術(shù)搜索引擎Semantic Scholar來(lái)確保所提想法的獨(dú)創(chuàng)性。

實(shí)驗(yàn)迭代:一旦確定了研究方向,AI科學(xué)家便進(jìn)入實(shí)驗(yàn)階段。它會(huì)自動(dòng)執(zhí)行實(shí)驗(yàn)計(jì)劃,收集數(shù)據(jù)并生成圖表以直觀展示實(shí)驗(yàn)結(jié)果。同時(shí),AI科學(xué)家會(huì)詳細(xì)記錄每張圖表的內(nèi)容,確保實(shí)驗(yàn)筆記和圖形資料能夠?yàn)楹罄m(xù)的論文撰寫提供全面支持。

論文撰寫:實(shí)驗(yàn)完成后,AI科學(xué)家會(huì)利用LaTeX格式,撰寫一篇結(jié)構(gòu)清晰、內(nèi)容詳實(shí)的論文,向讀者展示其研究成果。在撰寫過(guò)程中,它還會(huì)借助Semantic Scholar自動(dòng)搜索并引用相關(guān)領(lǐng)域的文獻(xiàn),增強(qiáng)論文的學(xué)術(shù)性和權(quán)威性。

自動(dòng)審閱:為了提升論文質(zhì)量,團(tuán)隊(duì)特別開(kāi)發(fā)了一個(gè)基于大型語(yǔ)言模型的自動(dòng)化審閱系統(tǒng)。該系統(tǒng)能夠以接近人類的判斷力,對(duì)生成的論文進(jìn)行客觀評(píng)估,并提出改進(jìn)建議。這些反饋不僅有助于AI科學(xué)家優(yōu)化當(dāng)前項(xiàng)目,還能為未來(lái)的研究提供寶貴的參考。通過(guò)這一連續(xù)的反饋循環(huán),AI科學(xué)家能夠不斷迭代改進(jìn),提升研究成果的水平和影響力。

當(dāng)與最先進(jìn)的LLM技術(shù)相結(jié)合時(shí),AI科學(xué)家甚至能夠撰寫出達(dá)到頂級(jí)機(jī)器學(xué)習(xí)會(huì)議“弱接受”標(biāo)準(zhǔn)的論文,并通過(guò)自動(dòng)審閱系統(tǒng)獲得認(rèn)可。

二、AI科學(xué)家論文展示:覆蓋擴(kuò)散模型、語(yǔ)言建模等領(lǐng)域

在公告中,團(tuán)隊(duì)給出了一系列AI科學(xué)家生成的一些機(jī)器學(xué)習(xí)領(lǐng)域論文,展示了其在擴(kuò)散模型、語(yǔ)言建模和Grokking等領(lǐng)域的科研能力。

1、擴(kuò)散模型:《DualScale Diffusion:低維生成模型的自適應(yīng)特征平衡》

論文地址:https://sakana.ai/assets/ai-scientist/adaptive_dual_scale_denoising.pdf

代碼地址:https://github.com/SakanaAI/AI-Scientist/tree/main/example_papers/adaptive_dual_scale_denoising

2、語(yǔ)言建模:《StyleFusion:字符級(jí)語(yǔ)言模型中的自適應(yīng)多風(fēng)格生成》

論文地址:https://sakana.ai/assets/ai-scientist/multi_style_adapter.pdf

代碼地址:https://github.com/SakanaAI/AI-Scientist/tree/main/example_papers/multi_style_adapter

語(yǔ)言建模:《通過(guò)Q-Learning實(shí)現(xiàn)Transformer的自適應(yīng)學(xué)習(xí)率》

論文地址:https://sakana.ai/assets/ai-scientist/rl_lr_adaptation.pdf

代碼地址:https://github.com/SakanaAI/AI-Scientist/tree/main/example_papers/rl_lr_adaptation

3、Grokking:《解鎖Grokking:Transformer模型中權(quán)重初始化策略的比較研究》

論文地址:https://sakana.ai/assets/ai-scientist/weight_initialization_grokking.pdf

代碼地址:https://github.com/SakanaAI/AI-Scientist/tree/main/example_papers/layerwise_lr_grokking

三、“畫圖”能力不足,難以準(zhǔn)確比較兩個(gè)數(shù)字大小

受限于當(dāng)下大模型發(fā)展水平,AI科學(xué)家仍存在不足之處。

目前,AI科學(xué)家尚未具備視覺(jué)處理能力,因此無(wú)法自動(dòng)修正論文中的視覺(jué)元素或圖表布局問(wèn)題。

比如,它生成的圖表有時(shí)清晰度不足,表格可能超出頁(yè)面界限,整體頁(yè)面布局也常顯雜亂。而引入多模態(tài)基礎(chǔ)模型有望從根本上解決這一難題。

另外,AI科學(xué)家在執(zhí)行想法或進(jìn)行基線對(duì)比時(shí),可能會(huì)因操作不當(dāng)而導(dǎo)致結(jié)果誤導(dǎo)。

同時(shí),在撰寫和評(píng)估結(jié)果時(shí),它也可能偶爾犯下較為嚴(yán)重的錯(cuò)誤,比如難以準(zhǔn)確比較兩個(gè)數(shù)字的大小,這是大模型的一個(gè)已知缺陷。為緩解這一問(wèn)題,團(tuán)隊(duì)已確保所有實(shí)驗(yàn)結(jié)果均可復(fù)現(xiàn),并妥善保存了所有執(zhí)行文件。

在報(bào)告中,團(tuán)隊(duì)深入剖析了AI科學(xué)家當(dāng)前的局限以及未來(lái)可能面臨的挑戰(zhàn)。

四、AI科學(xué)家“耍小聰明”:自行修改腳本,引起AI安全隱患

團(tuán)隊(duì)還觀察到,AI科學(xué)家有時(shí)會(huì)嘗試通過(guò)一些“小聰明”來(lái)增加成功的幾率,比如自行修改并執(zhí)行腳本。在論文中,團(tuán)隊(duì)深入探討了這一行為可能帶來(lái)的AI安全隱患。

舉個(gè)例子,在一次執(zhí)行過(guò)程中,它竟然編輯了代碼,通過(guò)系統(tǒng)調(diào)用來(lái)讓自己無(wú)限循環(huán)運(yùn)行。

還有一次,某個(gè)實(shí)驗(yàn)耗時(shí)過(guò)長(zhǎng),眼看就要超出團(tuán)隊(duì)設(shè)定的超時(shí)限制了,但它沒(méi)有想著優(yōu)化代碼提升效率,反而試圖通過(guò)修改代碼來(lái)延長(zhǎng)超時(shí)時(shí)間。

以下是它嘗試修改代碼的一些具體例子:

這些問(wèn)題可以通過(guò)對(duì)AI科學(xué)家的操作環(huán)境進(jìn)行沙盒化來(lái)緩解。在完整報(bào)告中,團(tuán)隊(duì)深入討論了安全代碼執(zhí)行和沙盒化的問(wèn)題。

結(jié)語(yǔ):AI科學(xué)家首秀,顛覆創(chuàng)新能力有待驗(yàn)證

展望未來(lái),Sakana AI稱其的目標(biāo)是將AI科學(xué)家應(yīng)用于開(kāi)放模型的閉環(huán)系統(tǒng)中,推動(dòng)AI不斷自我改進(jìn)。AI科學(xué)家將帶來(lái)一個(gè)全面由AI驅(qū)動(dòng)的科學(xué)新世界,這里不僅有大語(yǔ)言模型賦能的研究者,還涵蓋了審稿專家、領(lǐng)域主席乃至整個(gè)學(xué)術(shù)會(huì)議體系。

但Sakana AI并不認(rèn)為人類科學(xué)家的地位會(huì)因此削弱。相反,隨著新技術(shù)的涌現(xiàn),科學(xué)家的角色將更加多元化,他們將向科研領(lǐng)域的更高層次邁進(jìn)。自動(dòng)化科研發(fā)現(xiàn)流程并融入AI驅(qū)動(dòng)的審核機(jī)制,這主要還是為科學(xué)技術(shù)領(lǐng)域中最棘手的問(wèn)題創(chuàng)新與解決鋪設(shè)了廣闊的道路。

當(dāng)前版本的AI科學(xué)家已展現(xiàn)出在擴(kuò)散模型、Transformer等等成熟技術(shù)基礎(chǔ)上進(jìn)行創(chuàng)新的非凡實(shí)力,但這類系統(tǒng)能否真正提出顛覆性的全新理念,仍需時(shí)間來(lái)驗(yàn)證。

來(lái)源:Sakana AI

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港