展會(huì)信息港展會(huì)大全

IDEA謝育濤:AI提高科研效率把科學(xué)家從非創(chuàng)新性勞動(dòng)中解放出來
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-07-09 07:59:14   瀏覽:8269次  

導(dǎo)讀:基于人工智能的科研第五范式正在崛起。 本文為IPO早知道原創(chuàng) 作者|蘇打 在每一次工業(yè)革命轉(zhuǎn)折點(diǎn)或者拐點(diǎn)之前,都有漫長的科學(xué)革命、技術(shù)革命的序章,這個(gè)序章可能持續(xù)十幾年、幾百年,甚至上千年。而這個(gè)時(shí)間的發(fā)展對于我們每一個(gè)人來講可能都要注意,在這...

"基于人工智能的科研第五范式正在崛起。"

本文為IPO早知道原創(chuàng)

作者|蘇打

“在每一次工業(yè)革命轉(zhuǎn)折點(diǎn)或者拐點(diǎn)之前,都有漫長的科學(xué)革命、技術(shù)革命的序章,這個(gè)序章可能持續(xù)十幾年、幾百年,甚至上千年。而這個(gè)時(shí)間的發(fā)展對于我們每一個(gè)人來講可能都要注意,在這個(gè)幾十年之前的科學(xué)革命,可能是幾十年之后工業(yè)文明的偉大基礎(chǔ),我們這一群人恰逢這樣一個(gè)偉大的科技革命的時(shí)代機(jī)遇,因?yàn)榭蒲蟹妒秸谏,這是每個(gè)人可以抓住的機(jī)會(huì)。”

2007年,圖靈獎(jiǎng)得主Jim Gray提出了實(shí)驗(yàn)科學(xué)范式,時(shí)間范疇在一千多年前到幾百年前;隨后,一群天才科學(xué)家在幾百年前推理演繹出現(xiàn)代物理的理論體系、電子力學(xué),這一階段被稱為第二范式;第三范式和第二范式的類似之處在于,有很多推理過程沒有辦法算出來。其典型范例比如天氣預(yù)報(bào)、地質(zhì)演變等。

第四個(gè)范式則是最近二十年的事情,即數(shù)據(jù)科學(xué)范式,依靠現(xiàn)有數(shù)據(jù)總結(jié)、歸納、推理出一些結(jié)論,然后看看這個(gè)范式是否合理,從而引導(dǎo)我們走正確的科研方向,這一方法如今非常流行。

“但真實(shí)世界的復(fù)雜程度遠(yuǎn)超想象的,當(dāng)人們面臨更大的問題、更海量的數(shù)據(jù)時(shí),解決方法可能就超出了第三、第四范式的范疇。”7月7日,在2023世界人工智能大會(huì)上,IDEA研究院工程總監(jiān)、AI平臺(tái)技術(shù)研究中心負(fù)責(zé)人謝育濤表示,“比如,今天的科學(xué)家都在面臨一個(gè)問題,就是數(shù)據(jù)量大到一個(gè)地步的時(shí)候,都覺得不知道怎么處理。”

以下為謝育濤的演講(有刪節(jié)):

以1TB為參照來看,歐洲大型的強(qiáng)子對撞機(jī)的數(shù)據(jù)是1TB,中國的天眼射電望遠(yuǎn)鏡一天是500TB,儲(chǔ)存可能是一件小事,但是處理起來非常不容易。清華大學(xué)的腦成像系統(tǒng)一天大概產(chǎn)生2800TB,這是2015年互聯(lián)網(wǎng)一年的數(shù)據(jù)流量。

這里面可能有很多重復(fù)、冗余和無效的數(shù)據(jù),對于計(jì)算范式、大數(shù)據(jù)范式來講都是很難處理消化的。而在科學(xué)研究的范圍內(nèi),更多視頻、聲音、圖像之類的數(shù)據(jù)會(huì)不斷出現(xiàn),人們的想法會(huì)不斷豐富。

另一類數(shù)據(jù)是文獻(xiàn)。自然語言作為高度濃縮的知識(shí)形態(tài),跟觀測的數(shù)字、數(shù)據(jù)不一樣,它非常重要,所以一篇論文里面包含的信息量往往非常龐大。

進(jìn)入到21世紀(jì)以后,發(fā)表的論文篇數(shù)以指數(shù)級在往上漲,科研的人數(shù)也在劇烈增加,大量的數(shù)據(jù)、大量的高質(zhì)量、內(nèi)容很高的論文怎么處理?這對科學(xué)家來講也是很大的難題。一個(gè)科學(xué)家做科研的時(shí)候在做什么事情?有海量的數(shù)據(jù),還要進(jìn)一步創(chuàng)新的時(shí)候該怎么辦?

目前的技術(shù)正在幫助科學(xué)家來進(jìn)行突破。這是一個(gè)閉環(huán)、不斷循環(huán)的演進(jìn)。第一步往往是明確問題,從現(xiàn)狀和背景做一些調(diào)查研究,看看有什么問題值得去進(jìn)一步探索,然后進(jìn)行一些評估。

接下來是進(jìn)行假設(shè),在這個(gè)基礎(chǔ)上可以做什么方向的研究。假設(shè)出來以后,就要開始設(shè)計(jì)實(shí)驗(yàn),來證實(shí)或者證偽。最終獲得結(jié)果后,便可以發(fā)論文、發(fā)報(bào)告。

這個(gè)過程的每一個(gè)步驟都離不開數(shù)據(jù)。去年,微軟提出了科研的第五范式口號,即人工智能的科學(xué)范式,真正用智能的方式處理新的知識(shí),對于海量的數(shù)據(jù)用人工智能的方法進(jìn)行歸納、總結(jié)。其中,對于數(shù)字化的數(shù)據(jù),可以使用很多大數(shù)據(jù)處理的方法或者機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的方法來處理;對于文本的數(shù)據(jù),我們發(fā)現(xiàn)以GPT為代表的技術(shù),對于文本的理解已經(jīng)達(dá)到一個(gè)新的高度。

2023年初GPT出來的時(shí)候,我們知道,它所展現(xiàn)出來的對于自然語言的處理,是一場巨大的革命。

自然語言為什么這么重要?我們往往講“懂語言者得天下”,因?yàn)檎Z言是高度智慧的濃縮,對于語言的理解讓人類可以被理解,人的知識(shí)可以被理解,機(jī)器可以來理解人類要理解的知識(shí),所以這是一個(gè)非常大的突破。

微軟認(rèn)為雖然GPT-4還不完整,還有很多欠缺的地方,但是可以被稱為通用人工智能的早期版本,這是科學(xué)家對這個(gè)事情的初步看法是這樣。

根據(jù)它所表現(xiàn)出來的能力,我認(rèn)為非常適合科研人員的需要,為什么?因?yàn)榭蒲腥藛T有大量的文獻(xiàn)根本來不及讀,讀了以后不一定讀不懂,讀懂以后也不一定可以跨學(xué)科,對于GPT這樣的能力,基于自然語言的綜合能力和推理的能力,非常適合這樣一個(gè)群體,所以我們可以暢想在AGI或者AI新時(shí)代的驅(qū)動(dòng)下,科研的第五范式到底能給科研帶來多大的生產(chǎn)力提升。

事實(shí)上,人們有不同的猜測或者不同的暢想,比如說在2009年的時(shí)候,《Science》雜志發(fā)表了一個(gè)文章叫從實(shí)驗(yàn)數(shù)據(jù)中提煉自由形式的自然規(guī)律,想講的觀點(diǎn)就是機(jī)器可以發(fā)現(xiàn)新規(guī)律,不用科學(xué)家了。但在兩個(gè)月之后,一位物理學(xué)家也在《Science》上發(fā)表了一篇文章題目叫做“機(jī)器離科學(xué)革命還有距離”,他認(rèn)為沒有任何機(jī)器可以制造革命。

我認(rèn)為,在人類智慧創(chuàng)造力這件事上,暫時(shí)還沒看到能被替代的可能性。但是生產(chǎn)力這件事情是絕對可以加速創(chuàng)新的提升科學(xué)家的生產(chǎn)力,讓他們更快地創(chuàng)新。所以我們今天在此次論壇中提出的是“AI for Scientists”,讓AI這樣最先進(jìn)的工具來幫助最聰明的人,帶來更多創(chuàng)新,為經(jīng)濟(jì)發(fā)展帶來強(qiáng)勁動(dòng)力,或許也有機(jī)會(huì)真正實(shí)現(xiàn)AI for Scientists。

其中,有這樣幾個(gè)改變將是顯而易見的。第一是效率提升,因?yàn)锳I會(huì)伴隨著整個(gè)科研的流程,從提出假設(shè)到做實(shí)驗(yàn),再到歸納總結(jié),讓科學(xué)家變得更高效;第二是當(dāng)生產(chǎn)力大幅度提升時(shí),一定會(huì)有更多人參與到科研中。比如,以前我讀不懂一篇學(xué)術(shù)文章,有AI幫助后不僅能讀,更能拿來用。

第三是總結(jié)寫完了,寫得好不好,這件事AI是不是可以幫?我們來看一看現(xiàn)在的技術(shù)已經(jīng)可以大家做什么。

一個(gè)是讀。我會(huì)問模型一些問題,比如說,Attention is all you need的第一作者后面有發(fā)表什么文章嗎?很多問題GPT-3.5和GPT4.0都回答得非常好,甚至能夠給我一些觀點(diǎn)。當(dāng)然也有一些不足的地方,實(shí)際應(yīng)用到科研生產(chǎn)力場景的時(shí)候還是有很大挑戰(zhàn)的。

二是微調(diào)訓(xùn)練,哪一塊還做得不夠好或者微調(diào)的數(shù)據(jù)不夠,這是我們的觀察,即讀的場景。很多開源的工具,基本上都是調(diào)用GPT-4的能力,所以會(huì)受益于GPT-4,也會(huì)受限于GPT-4。

比如說有一篇文章是對于Scaling Law提出了觀點(diǎn),我想知道后面有哪些工作進(jìn)行了擴(kuò)展研究,有沒有提出一些相反的觀點(diǎn)。但GPT3.5和GPT4的回答得基本上沒有辦法滿足我的需要。

從這個(gè)例子中我們也看得出來,它在學(xué)術(shù)領(lǐng)域的訓(xùn)練可能不足,優(yōu)化過程可能不足,我覺得這樣的問題在很多的垂直領(lǐng)域都有這樣的問題。

另外,我看到開源社區(qū)的一個(gè)工作,這個(gè)是做有一篇文章,快要發(fā)表了,明天要投稿了,那么我就問問AI,讓它提建議。這是很難的事情。GPT3.5和GPT4雖然指出了一下問題,但并不是很明確。

這幾個(gè)場景好像都有希望,可是做得不夠好,怎么辦?

所以我們研究院提出了打造一個(gè)學(xué)術(shù)領(lǐng)域的專業(yè)模型,滿足各個(gè)場景的需要,因?yàn)楝F(xiàn)有的通用模型好像有各種各樣的局限性。

首先是通用模型的訓(xùn)練。最優(yōu)秀的代表就是GPT-4模型,但是它不開放,所以沒有辦法在上面做進(jìn)一步的開發(fā)。從通用模型之后幾件事情來看,非常重要的是擴(kuò)大腦容量,具體講就是把海量的學(xué)術(shù)資料、論文以及用戶的評價(jià)、討論都塞給它,讓它可以去學(xué)習(xí)、了解,先讀懂所需要的知識(shí),這是學(xué)術(shù)大語言繼續(xù)訓(xùn)練的工作。

這是預(yù)訓(xùn)練之后的第一步,我們會(huì)評估通用能力和領(lǐng)域?qū)I(yè)能力,之后就進(jìn)入指令微調(diào),回答不同的問題就通過不同的指令。第二部是讓很多用戶的高質(zhì)量標(biāo)注數(shù)據(jù)進(jìn)來,做質(zhì)量微調(diào)和下一步的強(qiáng)化學(xué)習(xí),使得答案符合人類的標(biāo)準(zhǔn)。

數(shù)據(jù)會(huì)直接影響到模型質(zhì)量,同時(shí)算力也是非常巨大的需求,算法也需要調(diào)和研究,所以這是很龐大的工程,但是這個(gè)事情是有意義的,因?yàn)樽龀鰜砹艘院髸?huì)有好的效果。

我們也做了一些早期的研究,看看是什么樣的情況,可以舉幾個(gè)例子,就是做完這個(gè)之后可以怎么樣,我們往前走的時(shí)候到底這個(gè)AI給科研生產(chǎn)力帶來了多大的想象空間,我們碰到的這些問題是不是可以得到解決,這個(gè)方法是不是正確。

比如說在閱讀的時(shí)候,我們有一個(gè)產(chǎn)品叫ReadPaper,可以識(shí)別文章結(jié)構(gòu)、總結(jié)文章內(nèi)容,還可以主動(dòng)提一些問題、思考。它可以在文獻(xiàn)之外提出全局性的問題,這個(gè)能力是ChatGPT不具備的。

另外是論文潤色。這個(gè)部分很多人和很多工具也在做,我們是從科研的角度,用大模型基于對于科研領(lǐng)域的知識(shí)深度理解,提一些建議。比如,AI模擬審稿員會(huì)幫你總結(jié)一下是不是這個(gè)意思、缺點(diǎn)有什么、優(yōu)點(diǎn)是什么,最后告訴你大概的論文打多少分;同時(shí)提供多達(dá)三、四十條的潤色建議。標(biāo)題、摘要部分,ReadPaper也可以提供幫助。

我們相信GPT-4已經(jīng)顯示了很強(qiáng)大的能力,雖然它并不是完美無瑕的,但確實(shí)打開了我們想象的空間,正在驅(qū)動(dòng)各個(gè)行業(yè)的變革,科學(xué)也不例外。

我認(rèn)為,科研當(dāng)中首先能夠被替代,而且應(yīng)該被替代的,就是那些重復(fù)性高、有固定流程的工作。這個(gè)不需要科學(xué)家來做,比如說論文格式、標(biāo)點(diǎn)符號等,都可以由機(jī)器來幫忙。

其次能被替代的,是對于知識(shí)的理解、推理部分。比如說論文綜述可以來幫忙,科研選題可能有點(diǎn)難,但是也可以提供一些好的建議,實(shí)驗(yàn)設(shè)計(jì)完全可以想象,有了知識(shí)以后建議你怎么來做實(shí)驗(yàn)設(shè)計(jì)。

人類的創(chuàng)新力是人類智慧的核心,我認(rèn)為暫時(shí)不可以被替代,但生產(chǎn)力的提升一定可以加速創(chuàng)新的過程。所以我們想借助人工智能提高科研效率,把科學(xué)家從非創(chuàng)新性的勞動(dòng)中解放出來,讓科學(xué)家發(fā)揮創(chuàng)造力,集中精力做他自己的事情,可以讓給更多人的因?yàn)橛泄ぞ呖梢宰龈嗟墓ぷ鳌I for Scientists做好了以后,對于科學(xué)家和你我而言,你只需要有一個(gè)好的想法。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港