當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能應(yīng)用 > IDEA謝育濤：AI提高科研效率把科學(xué)家從非創(chuàng)新性勞動(dòng)中解放出來

IDEA謝育濤：AI提高科研效率把科學(xué)家從非創(chuàng)新性勞動(dòng)中解放出來
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-07-09 07:59:14 瀏覽：8269次

導(dǎo)讀：基于人工智能的科研第五范式正在崛起。本文為IPO早知道原創(chuàng) 作者｜蘇打在每一次工業(yè)革命轉(zhuǎn)折點(diǎn)或者拐點(diǎn)之前，都有漫長的科學(xué)革命、技術(shù)革命的序章，這個(gè)序章可能持續(xù)十幾年、幾百年，甚至上千年。而這個(gè)時(shí)間的發(fā)展對于我們每一個(gè)人來講可能都要注意，在這...

"基于人工智能的科研第五范式正在崛起。"

本文為IPO早知道原創(chuàng)

作者｜蘇打

“在每一次工業(yè)革命轉(zhuǎn)折點(diǎn)或者拐點(diǎn)之前，都有漫長的科學(xué)革命、技術(shù)革命的序章，這個(gè)序章可能持續(xù)十幾年、幾百年，甚至上千年。而這個(gè)時(shí)間的發(fā)展對于我們每一個(gè)人來講可能都要注意，在這個(gè)幾十年之前的科學(xué)革命，可能是幾十年之后工業(yè)文明的偉大基礎(chǔ)，我們這一群人恰逢這樣一個(gè)偉大的科技革命的時(shí)代機(jī)遇，因?yàn)榭蒲蟹妒秸谏�，這是每個(gè)人可以抓住的機(jī)會(huì)。”

2007年，圖靈獎(jiǎng)得主Jim Gray提出了實(shí)驗(yàn)科學(xué)范式，時(shí)間范疇在一千多年前到幾百年前；隨后，一群天才科學(xué)家在幾百年前推理演繹出現(xiàn)代物理的理論體系、電子力學(xué)，這一階段被稱為第二范式；第三范式和第二范式的類似之處在于，有很多推理過程沒有辦法算出來。其典型范例比如天氣預(yù)報(bào)、地質(zhì)演變等。

第四個(gè)范式則是最近二十年的事情，即數(shù)據(jù)科學(xué)范式，依靠現(xiàn)有數(shù)據(jù)總結(jié)、歸納、推理出一些結(jié)論，然后看看這個(gè)范式是否合理，從而引導(dǎo)我們走正確的科研方向，這一方法如今非常流行。

“但真實(shí)世界的復(fù)雜程度遠(yuǎn)超想象的，當(dāng)人們面臨更大的問題、更海量的數(shù)據(jù)時(shí)，解決方法可能就超出了第三、第四范式的范疇。”7月7日，在2023世界人工智能大會(huì)上，IDEA研究院工程總監(jiān)、AI平臺(tái)技術(shù)研究中心負(fù)責(zé)人謝育濤表示，“比如，今天的科學(xué)家都在面臨一個(gè)問題，就是數(shù)據(jù)量大到一個(gè)地步的時(shí)候，都覺得不知道怎么處理。”

以下為謝育濤的演講（有刪節(jié)）：

以1TB為參照來看，歐洲大型的強(qiáng)子對撞機(jī)的數(shù)據(jù)是1TB，中國的天眼射電望遠(yuǎn)鏡一天是500TB，儲(chǔ)存可能是一件小事，但是處理起來非常不容易。清華大學(xué)的腦成像系統(tǒng)一天大概產(chǎn)生2800TB，這是2015年互聯(lián)網(wǎng)一年的數(shù)據(jù)流量。

這里面可能有很多重復(fù)、冗余和無效的數(shù)據(jù)，對于計(jì)算范式、大數(shù)據(jù)范式來講都是很難處理消化的。而在科學(xué)研究的范圍內(nèi)，更多視頻、聲音、圖像之類的數(shù)據(jù)會(huì)不斷出現(xiàn)，人們的想法會(huì)不斷豐富。

另一類數(shù)據(jù)是文獻(xiàn)。自然語言作為高度濃縮的知識(shí)形態(tài)，跟觀測的數(shù)字、數(shù)據(jù)不一樣，它非常重要，所以一篇論文里面包含的信息量往往非常龐大。

進(jìn)入到21世紀(jì)以后，發(fā)表的論文篇數(shù)以指數(shù)級在往上漲，科研的人數(shù)也在劇烈增加，大量的數(shù)據(jù)、大量的高質(zhì)量、內(nèi)容很高的論文怎么處理？這對科學(xué)家來講也是很大的難題。一個(gè)科學(xué)家做科研的時(shí)候在做什么事情？有海量的數(shù)據(jù)，還要進(jìn)一步創(chuàng)新的時(shí)候該怎么辦？

目前的技術(shù)正在幫助科學(xué)家來進(jìn)行突破。這是一個(gè)閉環(huán)、不斷循環(huán)的演進(jìn)。第一步往往是明確問題，從現(xiàn)狀和背景做一些調(diào)查研究，看看有什么問題值得去進(jìn)一步探索，然后進(jìn)行一些評估。

接下來是進(jìn)行假設(shè)，在這個(gè)基礎(chǔ)上可以做什么方向的研究。假設(shè)出來以后，就要開始設(shè)計(jì)實(shí)驗(yàn)，來證實(shí)或者證偽。最終獲得結(jié)果后，便可以發(fā)論文、發(fā)報(bào)告。

這個(gè)過程的每一個(gè)步驟都離不開數(shù)據(jù)。去年，微軟提出了科研的第五范式口號，即人工智能的科學(xué)范式，真正用智能的方式處理新的知識(shí)，對于海量的數(shù)據(jù)用人工智能的方法進(jìn)行歸納、總結(jié)。其中，對于數(shù)字化的數(shù)據(jù)，可以使用很多大數(shù)據(jù)處理的方法或者機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的方法來處理；對于文本的數(shù)據(jù)，我們發(fā)現(xiàn)以GPT為代表的技術(shù)，對于文本的理解已經(jīng)達(dá)到一個(gè)新的高度。

2023年初GPT出來的時(shí)候，我們知道，它所展現(xiàn)出來的對于自然語言的處理，是一場巨大的革命。

自然語言為什么這么重要？我們往往講“懂語言者得天下”，因?yàn)檎Z言是高度智慧的濃縮，對于語言的理解讓人類可以被理解，人的知識(shí)可以被理解，機(jī)器可以來理解人類要理解的知識(shí)，所以這是一個(gè)非常大的突破。

微軟認(rèn)為雖然GPT-4還不完整，還有很多欠缺的地方，但是可以被稱為通用人工智能的早期版本，這是科學(xué)家對這個(gè)事情的初步看法是這樣。

根據(jù)它所表現(xiàn)出來的能力，我認(rèn)為非常適合科研人員的需要，為什么？因?yàn)榭蒲腥藛T有大量的文獻(xiàn)根本來不及讀，讀了以后不一定讀不懂，讀懂以后也不一定可以跨學(xué)科，對于GPT這樣的能力，基于自然語言的綜合能力和推理的能力，非常適合這樣一個(gè)群體，所以我們可以暢想在AGI或者AI新時(shí)代的驅(qū)動(dòng)下，科研的第五范式到底能給科研帶來多大的生產(chǎn)力提升。

事實(shí)上，人們有不同的猜測或者不同的暢想，比如說在2009年的時(shí)候，《Science》雜志發(fā)表了一個(gè)文章叫從實(shí)驗(yàn)數(shù)據(jù)中提煉自由形式的自然規(guī)律，想講的觀點(diǎn)就是機(jī)器可以發(fā)現(xiàn)新規(guī)律，不用科學(xué)家了。但在兩個(gè)月之后，一位物理學(xué)家也在《Science》上發(fā)表了一篇文章題目叫做“機(jī)器離科學(xué)革命還有距離”，他認(rèn)為沒有任何機(jī)器可以制造革命。

我認(rèn)為，在人類智慧創(chuàng)造力這件事上，暫時(shí)還沒看到能被替代的可能性。但是生產(chǎn)力這件事情是絕對可以加速創(chuàng)新的提升科學(xué)家的生產(chǎn)力，讓他們更快地創(chuàng)新。所以我們今天在此次論壇中提出的是“AI for Scientists”，讓AI這樣最先進(jìn)的工具來幫助最聰明的人，帶來更多創(chuàng)新，為經(jīng)濟(jì)發(fā)展帶來強(qiáng)勁動(dòng)力，或許也有機(jī)會(huì)真正實(shí)現(xiàn)AI for Scientists。

其中，有這樣幾個(gè)改變將是顯而易見的。第一是效率提升，因?yàn)锳I會(huì)伴隨著整個(gè)科研的流程，從提出假設(shè)到做實(shí)驗(yàn)，再到歸納總結(jié)，讓科學(xué)家變得更高效；第二是當(dāng)生產(chǎn)力大幅度提升時(shí)，一定會(huì)有更多人參與到科研中。比如，以前我讀不懂一篇學(xué)術(shù)文章，有AI幫助后不僅能讀，更能拿來用。

第三是總結(jié)寫完了，寫得好不好，這件事AI是不是可以幫？我們來看一看現(xiàn)在的技術(shù)已經(jīng)可以大家做什么。

一個(gè)是讀。我會(huì)問模型一些問題，比如說，Attention is all you need的第一作者后面有發(fā)表什么文章嗎？很多問題GPT-3.5和GPT4.0都回答得非常好，甚至能夠給我一些觀點(diǎn)。當(dāng)然也有一些不足的地方，實(shí)際應(yīng)用到科研生產(chǎn)力場景的時(shí)候還是有很大挑戰(zhàn)的。

二是微調(diào)訓(xùn)練，哪一塊還做得不夠好或者微調(diào)的數(shù)據(jù)不夠，這是我們的觀察，即讀的場景。很多開源的工具，基本上都是調(diào)用GPT-4的能力，所以會(huì)受益于GPT-4，也會(huì)受限于GPT-4。

比如說有一篇文章是對于Scaling Law提出了觀點(diǎn)，我想知道后面有哪些工作進(jìn)行了擴(kuò)展研究，有沒有提出一些相反的觀點(diǎn)。但GPT3.5和GPT4的回答得基本上沒有辦法滿足我的需要。

從這個(gè)例子中我們也看得出來，它在學(xué)術(shù)領(lǐng)域的訓(xùn)練可能不足，優(yōu)化過程可能不足，我覺得這樣的問題在很多的垂直領(lǐng)域都有這樣的問題。

另外，我看到開源社區(qū)的一個(gè)工作，這個(gè)是做有一篇文章，快要發(fā)表了，明天要投稿了，那么我就問問AI，讓它提建議。這是很難的事情。GPT3.5和GPT4雖然指出了一下問題，但并不是很明確。

這幾個(gè)場景好像都有希望，可是做得不夠好，怎么辦？

所以我們研究院提出了打造一個(gè)學(xué)術(shù)領(lǐng)域的專業(yè)模型，滿足各個(gè)場景的需要，因?yàn)楝F(xiàn)有的通用模型好像有各種各樣的局限性。

首先是通用模型的訓(xùn)練。最優(yōu)秀的代表就是GPT-4模型，但是它不開放，所以沒有辦法在上面做進(jìn)一步的開發(fā)。從通用模型之后幾件事情來看，非常重要的是擴(kuò)大腦容量，具體講就是把海量的學(xué)術(shù)資料、論文以及用戶的評價(jià)、討論都塞給它，讓它可以去學(xué)習(xí)、了解，先讀懂所需要的知識(shí)，這是學(xué)術(shù)大語言繼續(xù)訓(xùn)練的工作。

這是預(yù)訓(xùn)練之后的第一步，我們會(huì)評估通用能力和領(lǐng)域?qū)I(yè)能力，之后就進(jìn)入指令微調(diào)，回答不同的問題就通過不同的指令。第二部是讓很多用戶的高質(zhì)量標(biāo)注數(shù)據(jù)進(jìn)來，做質(zhì)量微調(diào)和下一步的強(qiáng)化學(xué)習(xí)，使得答案符合人類的標(biāo)準(zhǔn)。

數(shù)據(jù)會(huì)直接影響到模型質(zhì)量，同時(shí)算力也是非常巨大的需求，算法也需要調(diào)和研究，所以這是很龐大的工程，但是這個(gè)事情是有意義的，因?yàn)樽龀鰜砹艘院髸?huì)有好的效果。

我們也做了一些早期的研究，看看是什么樣的情況，可以舉幾個(gè)例子，就是做完這個(gè)之后可以怎么樣，我們往前走的時(shí)候到底這個(gè)AI給科研生產(chǎn)力帶來了多大的想象空間，我們碰到的這些問題是不是可以得到解決，這個(gè)方法是不是正確。

比如說在閱讀的時(shí)候，我們有一個(gè)產(chǎn)品叫ReadPaper，可以識(shí)別文章結(jié)構(gòu)、總結(jié)文章內(nèi)容，還可以主動(dòng)提一些問題、思考。它可以在文獻(xiàn)之外提出全局性的問題，這個(gè)能力是ChatGPT不具備的。

另外是論文潤色。這個(gè)部分很多人和很多工具也在做，我們是從科研的角度，用大模型基于對于科研領(lǐng)域的知識(shí)深度理解，提一些建議。比如，AI模擬審稿員會(huì)幫你總結(jié)一下是不是這個(gè)意思、缺點(diǎn)有什么、優(yōu)點(diǎn)是什么，最后告訴你大概的論文打多少分；同時(shí)提供多達(dá)三、四十條的潤色建議。標(biāo)題、摘要部分，ReadPaper也可以提供幫助。

我們相信GPT-4已經(jīng)顯示了很強(qiáng)大的能力，雖然它并不是完美無瑕的，但確實(shí)打開了我們想象的空間，正在驅(qū)動(dòng)各個(gè)行業(yè)的變革，科學(xué)也不例外。

我認(rèn)為，科研當(dāng)中首先能夠被替代，而且應(yīng)該被替代的，就是那些重復(fù)性高、有固定流程的工作。這個(gè)不需要科學(xué)家來做，比如說論文格式、標(biāo)點(diǎn)符號等，都可以由機(jī)器來幫忙。

其次能被替代的，是對于知識(shí)的理解、推理部分。比如說論文綜述可以來幫忙，科研選題可能有點(diǎn)難，但是也可以提供一些好的建議，實(shí)驗(yàn)設(shè)計(jì)完全可以想象，有了知識(shí)以后建議你怎么來做實(shí)驗(yàn)設(shè)計(jì)。

人類的創(chuàng)新力是人類智慧的核心，我認(rèn)為暫時(shí)不可以被替代，但生產(chǎn)力的提升一定可以加速創(chuàng)新的過程。所以我們想借助人工智能提高科研效率，把科學(xué)家從非創(chuàng)新性的勞動(dòng)中解放出來，讓科學(xué)家發(fā)揮創(chuàng)造力，集中精力做他自己的事情，可以讓給更多人的因?yàn)橛泄ぞ呖梢宰龈嗟墓ぷ鳌I for Scientists做好了以后，對于科學(xué)家和你我而言，你只需要有一個(gè)好的想法。