黄色网站+久久久久,日本不卡卡中文字幕在线观看

第一個(gè)自動(dòng)做科研的AI出現(xiàn)了，我們能信任機(jī)器嗎？

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-19 18:49:02 瀏覽：1319次

導(dǎo)讀：研究人員創(chuàng)造了一個(gè)純粹的AI科學(xué)家，從查閱文獻(xiàn)到撰寫論文，它可以實(shí)現(xiàn)科研全流程自動(dòng)化。但對(duì)于AI在科研過程中的使用，科學(xué)家仍有不同觀點(diǎn)。撰文 | 郭瑞東隨著人工智能（AI）的進(jìn)步，越來(lái)越多的研究者嘗試在科研過程的每一步嘗試引入AI，而對(duì)于能否使用AI...

研究人員創(chuàng)造了一個(gè)純粹的AI科學(xué)家，從查閱文獻(xiàn)到撰寫論文，它可以實(shí)現(xiàn)科研全流程自動(dòng)化。但對(duì)于AI在科研過程中的使用，科學(xué)家仍有不同觀點(diǎn)。

撰文 | 郭瑞東

隨著人工智能（AI）的進(jìn)步，越來(lái)越多的研究者嘗試在科研過程的每一步嘗試引入AI，而對(duì)于能否使用AI取代科學(xué)家展開研究，學(xué)界存在激烈的爭(zhēng)論。日前，日本創(chuàng)業(yè)公司Sakana AI創(chuàng)造出一個(gè)純粹的人工智能科學(xué)家，他們將其命名為THE AI SCIENTIST（以下稱AI Scientist），能夠以每篇10美元的成本，7*24小時(shí)持續(xù)工作。該成果目前發(fā)布在arXiv預(yù)印本平臺(tái)[1]。

圖1 AI scientist的工作流程丨圖源：參考文獻(xiàn)[1]

基于大語(yǔ)言模型（LLM）的AI Scientist是一個(gè)端對(duì)端的完整工作流（如圖1所示），目前只能從事機(jī)器學(xué)習(xí)的相關(guān)研究。AI Scientist從產(chǎn)生新的研究議題開始，它會(huì)在網(wǎng)上搜索相關(guān)文獻(xiàn)，并根據(jù)新穎性對(duì)研究思路進(jìn)行排名。在實(shí)驗(yàn)階段，AI Scientist可根據(jù)生成的研究思路自動(dòng)編寫代碼并執(zhí)行，負(fù)責(zé)代碼審核的部分（智能體）會(huì)確保生成的代碼不包含無(wú)關(guān)研究思路的內(nèi)容，以減緩大模型幻覺帶來(lái)的影響（大模型幻覺即生成的內(nèi)容看似邏輯通暢，但不符合已有知識(shí)）。之后AI Scientist會(huì)根據(jù)代碼運(yùn)行的結(jié)果迭代優(yōu)化實(shí)驗(yàn)。如果實(shí)驗(yàn)?zāi)艿玫矫枋鰧?shí)驗(yàn)結(jié)果的圖表，AI Scientist會(huì)進(jìn)行論文文稿的撰寫。

AI Scientist以機(jī)器學(xué)習(xí)領(lǐng)域頂會(huì)NeurIPS發(fā)布語(yǔ)言模型類研究為模板，使用大模型Claude 3.5、GPT-4及開源的Deepseek coder和Llama-3.1，各自產(chǎn)生了52個(gè)研究思路；在之后的新穎性審查中，少部分研究由于不具備創(chuàng)新性被去除，又有部分研究思路無(wú)法通過實(shí)驗(yàn)驗(yàn)證（大模型編程能力有限），最終只有不到一半的研究最終完成論文撰寫。最后，由大模型驅(qū)動(dòng)的評(píng)審智能體自動(dòng)生成對(duì)文稿的審稿意見和打分（表1中Mean Score項(xiàng)）。在成本方面，使用DeepSeek Coder模型生成每篇論文的成本僅需要10美元。

在這項(xiàng)研究中，作者論證了AI評(píng)審智能體給論文評(píng)審和人類專家針對(duì)2022年ICML（機(jī)器學(xué)習(xí)頂會(huì)）的評(píng)審具有相關(guān)性，且AI評(píng)審智能體對(duì) AI Scientist 論文的評(píng)分，達(dá)到了過往發(fā)表在機(jī)器學(xué)習(xí)頂會(huì)論文的均值。這似乎說明Al Scientist生成了頂會(huì)級(jí)的研究。

該研究中所有由AI生成的論文稿件、評(píng)審意見及代碼均已公開。這樣的開放性使得其他研究者能夠分析 AI Scientist 的結(jié)果。所以在研究公布后，有人就發(fā)現(xiàn)它存在“人氣偏差”，偏愛引用次數(shù)高的論文。

表1 AI scientist在語(yǔ)言模型領(lǐng)域自動(dòng)生成論文過程的評(píng)估結(jié)果

對(duì)于這項(xiàng)研究，艾倫人工智能研究所（Allen Institute for AI）的計(jì)算機(jī)科學(xué)家Tom Hope指出，“當(dāng)前除了基本的流行用語(yǔ)膚淺組合之外，它無(wú)法制定新穎和有用的科學(xué)方向。”同時(shí)也由于當(dāng)前大模型的能力限制，很多研究思路最終無(wú)法自動(dòng)化地進(jìn)行實(shí)驗(yàn)。然而即使 AI 無(wú)法在短期內(nèi)完成更具創(chuàng)造性的研究，它仍然可以自動(dòng)化地執(zhí)行具有重復(fù)性的工作。此外，AI Scientist的作者指出，由于大模型幻覺的存在，對(duì)于AI生成的論文需要人工審核其代碼及結(jié)果，以避免AI生成的代碼以改變約束條件的方式來(lái)達(dá)成目標(biāo)，或循環(huán)調(diào)用導(dǎo)致程序崩潰。

這項(xiàng)研究初步論證了AI有可能獨(dú)立產(chǎn)生科學(xué)發(fā)現(xiàn)。盡管目前該系統(tǒng)只能用于機(jī)器學(xué)習(xí)領(lǐng)域，但一些科學(xué)家認(rèn)為其前景光明，勞倫斯伯克利國(guó)家實(shí)驗(yàn)室的材料科學(xué)家 Gerbrand Ceder 說：“我毫不懷疑這是大部分科學(xué)的發(fā)展方向。”AI Scientist的多智能體協(xié)作科研的模式，也可能適用于其他研究領(lǐng)域，這也是該論文指出的其未來(lái)研究方向。

雖然AI自動(dòng)化地完成科學(xué)研究全過程，但目前的進(jìn)展還不足以說明AI能夠取代科學(xué)家獨(dú)立開展研究。在實(shí)際工作中，現(xiàn)在科研人員更多的是將大模型當(dāng)作科研助手，將AI用于科研過程的某一部分：相對(duì)成功的應(yīng)用是在化學(xué)領(lǐng)域（通過大模型驅(qū)動(dòng)的機(jī)械臂自動(dòng)進(jìn)行實(shí)驗(yàn)發(fā)現(xiàn)新材料），以及將大模型與符號(hào)主義相結(jié)合用于數(shù)學(xué)定理的自動(dòng)化證明[2, 3]。

而對(duì)于AI如何在科學(xué)研究的各項(xiàng)任務(wù)中輔助研究者，近期一項(xiàng)研究給出了更加審慎的結(jié)論[4]。

該研究通過4項(xiàng)心理學(xué)實(shí)驗(yàn)考察ChatGPT在科研領(lǐng)域的4種能力，分別為整理科研文獻(xiàn)，生成科研數(shù)據(jù)，預(yù)測(cè)新穎的科研思路以及審核科研過程是否符合倫理規(guī)范。研究發(fā)現(xiàn)，由于大模型幻覺的存在，GPT-3.5和GPT-4分別有36.0%和5.4%的時(shí)間生成虛構(gòu)的參考文獻(xiàn)（盡管GPT-4承認(rèn)其進(jìn)行了虛構(gòu)），說明這兩種大模型不適合進(jìn)行文獻(xiàn)整理的工作。GPT-3.5和GPT-4能夠復(fù)制在大型語(yǔ)料庫(kù)中先前發(fā)現(xiàn)的文化偏見模式，所以ChatGPT可以模擬生成符合已知結(jié)果的數(shù)據(jù)。然而對(duì)于訓(xùn)練數(shù)據(jù)中不存在的新內(nèi)容方面，兩種大模型都不成功；并且在預(yù)測(cè)更新穎與較不新穎的結(jié)果時(shí)，都沒有顯著利用新信息，這說明大模型不擅長(zhǎng)產(chǎn)生新的研究數(shù)據(jù)在推斷訓(xùn)練數(shù)據(jù)之外的事物方面能力有限。不過，GPT-4被證明能夠檢測(cè)到像數(shù)據(jù)操縱（p-hacking）或違反開放協(xié)議等學(xué)術(shù)不端行為，表明AI有成為一個(gè)合格的科研倫理審查者的潛力。

這項(xiàng)研究帶給學(xué)者的啟示是，大模型在輔助科研領(lǐng)域的能力可能不一定符合預(yù)設(shè)。例如人們會(huì)認(rèn)為擅長(zhǎng)處理文本的大模型能夠整理文獻(xiàn)，然而由于幻覺的存在，事實(shí)并非如此；且文獻(xiàn)整理也不僅僅是羅列相關(guān)研究，而是搭建有清晰邏輯的認(rèn)知框架。而大模型在審核研究是否符合倫理規(guī)范上表現(xiàn)較為優(yōu)秀，考慮到一般情況下認(rèn)為大模型缺少批判性思維，這一結(jié)果可能出乎一些人的意料。預(yù)期和實(shí)際結(jié)果的差距突顯了用于科研的AI所具有的復(fù)雜性，值得科研人員進(jìn)一步研究。

除此之外，科研人員在使用大模型時(shí)，尤其要注意大模型有可能會(huì)生成不存在的數(shù)據(jù)。前述的AI Scientist在進(jìn)行自動(dòng)化研究時(shí)，出現(xiàn)過這樣的情況：當(dāng)代碼無(wú)法達(dá)到預(yù)期的評(píng)價(jià)指標(biāo)時(shí)，它不是試圖在下一輪迭代時(shí)修改代碼，而是降低評(píng)價(jià)指標(biāo)使代碼看起來(lái)合格。無(wú)獨(dú)有偶，根據(jù)此前報(bào)道[5]，ChatGPT能夠按照使用者的要求，創(chuàng)建沒有真實(shí)原始數(shù)據(jù)支持的數(shù)據(jù)集，該數(shù)據(jù)集可與現(xiàn)有證據(jù)相反或研究方向不同。對(duì)此，微生物學(xué)家和獨(dú)立科研誠(chéng)信顧問Elisabeth Bik表示：“這將非常容易讓研究人員對(duì)不存在的患者進(jìn)行虛假的數(shù)據(jù)測(cè)量，對(duì)問卷調(diào)查制作假答案，或生成關(guān)于動(dòng)物實(shí)驗(yàn)的大型數(shù)據(jù)集。”

這些案例提醒人們?cè)谝氪竽Ｐ蛥f(xié)助科研時(shí)，需要注意大模型會(huì)虛構(gòu)數(shù)據(jù)，尤其是當(dāng)使用大模型驅(qū)動(dòng)的智能體自動(dòng)化展開研究時(shí)，需要科研人員去打開黑盒而非盲目信任大模型的結(jié)果。

上述的幾項(xiàng)研究，從不同學(xué)科為切入點(diǎn)，討論了將大模型引入科學(xué)研究所帶來(lái)的機(jī)遇和風(fēng)險(xiǎn)�？紤]到科研活動(dòng)自身的復(fù)雜性及不同學(xué)科的異質(zhì)性，對(duì)于如何更好地在科研過程中用好AI，需要分學(xué)科分別進(jìn)行討論。科研過程不可避免地包含很多重復(fù)性的操作，將這些重復(fù)步驟自動(dòng)化，能解放科研人員的寶貴時(shí)間，有助于他們聚焦于科學(xué)問題。從這一方面來(lái)說，AI作為輔助工具具有廣闊的應(yīng)用前景。然而由于其能力的多變，其使用方法還需要系統(tǒng)性地摸索和考察。

人們無(wú)需擔(dān)心AI的引入會(huì)取代科學(xué)家，但AI無(wú)疑在改變科研全流程的方方面面。

參考文獻(xiàn)

[1]https://doi.org/10.48550/arXiv.2408.06292

[2]https://www.nature.com/articles/d41586-023-03956-w

[3]https://www.nature.com/articles/d41586-024-02441-2

[4]https://www.pnas.org/doi/10.1073/pnas.2404328121

[5]https://www.nature.com/articles/d41586-023-03635-w

第一個(gè)自動(dòng)做科研的AI出現(xiàn)了，我們能信任機(jī)器嗎？
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-19 18:49:02 瀏覽：1319次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

第一個(gè)自動(dòng)做科研的AI出現(xiàn)了，我們能信任機(jī)器嗎？ 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-19 18:49:02 瀏覽：1319次