展會信息港展會大全

上海AILab歐陽萬里:科學(xué)家為Al4S提供材料,就看AI學(xué)者如何加工
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-01-14 19:14:36   瀏覽:4795次  

導(dǎo)讀:編輯部 整理自 MEET2024 量子位 | 公眾號 QbitAI Nature今年的統(tǒng)計(jì)顯示,有 78% 的科學(xué)家還沒有將ChatGPT等AI工具納入日常研究中來。 從某種意義上來說, Al for Science 這一新的研究范式其實(shí)早就幫科學(xué)家們搭好了利用AI能力的橋梁。 就在MEET2024大會現(xiàn)場...

編輯部 整理自 MEET2024

量子位 | 公眾號 QbitAI

Nature今年的統(tǒng)計(jì)顯示,有78%的科學(xué)家還沒有將ChatGPT等AI工具納入日常研究中來。

從某種意義上來說,Al for Science這一新的研究范式其實(shí)早就幫科學(xué)家們搭好了利用AI能力的橋梁。

就在MEET2024大會現(xiàn)場,上海人工智能實(shí)驗(yàn)室領(lǐng)軍科學(xué)家歐陽萬里教授也指出:

科學(xué)家們觀測到的實(shí)驗(yàn)數(shù)據(jù),相當(dāng)于已經(jīng)為Al for Science提供了好的原材料,而怎么加工這些原材料,就是AI學(xué)者能夠參與的地方。

為了完整體現(xiàn)歐陽萬里對AI以及AI學(xué)者助力科學(xué)研究(即Al for Science)的思考,在不改變原意的基礎(chǔ)上,量子位對他的演講內(nèi)容進(jìn)行了編輯整理。希望也能給你帶來新的啟發(fā)。

關(guān)于MEET 智能未來大會:MEET大會是由量子位主辦的智能科技領(lǐng)域頂級商業(yè)峰會,致力于探討前沿科技技術(shù)的落地與行業(yè)應(yīng)用。今年共有數(shù)十家主流媒體及直播平臺報(bào)道直播了MEET2024大會,吸引了超過300萬行業(yè)用戶線上參會,全網(wǎng)總曝光量累積超過2000萬。

演講要點(diǎn)

科學(xué)研究有四范式,現(xiàn)在來到了最新階段:由人工智能驅(qū)動的數(shù)據(jù)密集型科學(xué)。

科學(xué)家們的優(yōu)勢和重點(diǎn)是高通量實(shí)驗(yàn)和計(jì)算,薄弱項(xiàng)是人工智能和機(jī)器學(xué)習(xí),等于有了非常好的原材料但沒有好的廚師。

Al for Science面臨的挑戰(zhàn)和其他AI領(lǐng)域類似,都有小樣本、少標(biāo)注、數(shù)據(jù)形式多樣等問題。

人工智能是Al for Science關(guān)鍵的一環(huán),但真正三足鼎立的是理論、實(shí)驗(yàn)以及計(jì)算。

(以下為演講全文)

Al for Science有好的原材料,就看AI學(xué)者如何加工

大家好,今天主要給大家分享上海人工智能實(shí)驗(yàn)室的一些科研探索。

我們主要面向三大任務(wù):

第一,前沿的基礎(chǔ)理論;第二,基礎(chǔ)系統(tǒng);第三,關(guān)鍵的共性技術(shù)。

在這個實(shí)驗(yàn)室我主要負(fù)責(zé)AI for Science方向。

談到AI for Science,我以前做的是計(jì)算機(jī)視覺,現(xiàn)在為什么又來從事這樣一個新的方向呢?

這是因?yàn),AI for Science在整個領(lǐng)域有很多應(yīng)用以及很好的發(fā)展。

具體而言,我們的科學(xué)研究從最初的實(shí)驗(yàn)歸納到模型推演到計(jì)算機(jī)仿真,目前又來到了新的范式:

我們有了大量的數(shù)據(jù)積累,科研推理給我們的經(jīng)驗(yàn),以及計(jì)算機(jī)仿真給我們帶來的利用計(jì)算機(jī)模擬世界的能力。

有了這樣數(shù)據(jù)和理論,我們就可以利用人工智能對我們的數(shù)據(jù)進(jìn)行分析,從里面找到合適的規(guī)律,從而進(jìn)一步反演我們的世界,讓我們能夠利用計(jì)算機(jī)對世界做更好的預(yù)測,而且能夠突破一些原來利用已有物理或者人們的知識而達(dá)不到的邊界。

在這里面,人工智能是最關(guān)鍵的一環(huán)。

它另外一個有效的地方在于,中國在自然科學(xué)方面相比以前有了很好的進(jìn)展,但相對于國外的話,我們?nèi)匀挥泻芏嗟胤叫枰纳啤?/p>

而有了人工智能加持以后,我們希望跟中國科學(xué)家們一起合作,在自然科學(xué)研究方面實(shí)現(xiàn)彎道超車,在整個世界舞臺上有更多的發(fā)展機(jī)會。

我們再回過頭來看,來自于自然科學(xué)的學(xué)者們,他們有的優(yōu)勢是什么?

基礎(chǔ)理論,自然科學(xué)家們在這方面有了非常深厚的積累,包括高通量實(shí)驗(yàn)以及計(jì)算經(jīng)驗(yàn)的積累。

當(dāng)一個科學(xué)家花了很多時間積累經(jīng)驗(yàn)、積累高通量實(shí)驗(yàn),在人工智能方面花的時間相對于本身做人工智能學(xué)者來說是少的,畢竟人的精力總是有限。

所以這方面,正是人工智能學(xué)者能夠參與的地方。

總結(jié)來說,自然科學(xué)家們在這方面準(zhǔn)備了好的實(shí)驗(yàn)數(shù)據(jù)、理論、和計(jì)算方法,相當(dāng)于為AI for Science方向提供了好的原材料。

怎么對原材料進(jìn)行加工,這成為了我們需要考慮的問題。

這好比我們做一道菜,有了好的原材料還要有好的廚師將原材料進(jìn)行加工。

AI for Science領(lǐng)域希望AI學(xué)者加入進(jìn)來和自然科學(xué)家一起合作,做出一道美味的佳肴。

在這方面不止我們實(shí)驗(yàn)室看到這樣一個機(jī)會,國內(nèi)很多高校以及企業(yè)也都看到了這個方向的重要性。

國外企業(yè)如大家知道的谷歌DeepMind,正在這方面發(fā)力;中國很多相應(yīng)公司也開始往這方面進(jìn)行相應(yīng)的投入。

Al for Science面臨的挑戰(zhàn)和其他AI領(lǐng)域類似

再回到開始那個話題:對于我個人而言,我是一個學(xué)者,為什么我要從事AI for Science?

主要基于以下兩個原因。

第一,問題本身很重要,第二個,問題本身有趣。

關(guān)于問題重要性,在我個人看來,首先是它與其他AI領(lǐng)域具有類似的問題,比如小樣本、少標(biāo)注。這在語音和視覺里面經(jīng)常被提到的,到了自然科學(xué)里面,變得尤為嚴(yán)重。

舉一個例子,大家都知道AI for Science有一個著名的工作是將蛋白質(zhì)折疊進(jìn)行預(yù)測,來自DeepMind。

很多學(xué)者說未來它能獲得諾貝爾獎,它做的事情是什么:當(dāng)我有了一維的序列,邊可以此得到蛋白質(zhì)在空間結(jié)構(gòu)上的三維結(jié)構(gòu)。

原來大家是怎么干的?需要用上千萬的設(shè)備,大概花一年左右時間才能得到這樣的結(jié)構(gòu)。

當(dāng)做好這件事情以后,很可能一個科學(xué)家就能發(fā)表一篇Nature或者Science的文章。

這證明這類研究不是普通人就能做的,它需要大量的投入以及真正的專家才行。

有了AI for Science能干什么呢?

利用人工智能模型,AI for Science的學(xué)者能將這件事情做得不錯。

但是我們可以看到,要得到三維結(jié)構(gòu),可能需要一個學(xué)者投入一年時間才能得到一個樣本標(biāo)注。

這樣一來,我們得到樣本數(shù)目的效率遠(yuǎn)比語言模型、視覺模型的效率低很多,這必然讓我們在很多類似的科學(xué)問題上面臨少標(biāo)注的問題。

樣本量也會有少的問題,像我們模擬非常底層的分子動力學(xué)的時候,有時顯微鏡都得不到相應(yīng)的樣本,使得問題更加嚴(yán)重。

另一方面我們會面臨數(shù)據(jù)表現(xiàn)形式多樣性的問題。

自然科學(xué)從物理到生物到地球科學(xué),有不同的表現(xiàn)形式,有非常底層的原子的表示、分子的表示,有基因蛋白等等的表示方式,如果來到地球科學(xué)又有大氣的表示。

表達(dá)形式本身多樣的形式下,怎么把數(shù)據(jù)處理好成為一個問題。

當(dāng)然,AI for Science本身也有一些獨(dú)特的挑戰(zhàn),我需要跟科學(xué)家進(jìn)行更多的合作,讓他們幫我們建立更多的知識背景。

同時需要注意,在這個領(lǐng)域,理論、實(shí)驗(yàn)以及計(jì)算三足鼎立,AI不完全最重要的,它是其中重要的能帶來突破的一環(huán)。

我們跟科學(xué)家合作的時候需要尊重以及了解到他們在這方面已有的知識,從而在合作過程中建立互信,互相尊重做出更好的工作來。

兩項(xiàng)Al for Science科研成果介紹

下面將介紹我們在實(shí)驗(yàn)室的工作。

RNA三維結(jié)構(gòu)預(yù)測,顯著提高樣本利用率

在實(shí)驗(yàn)室,我們希望能夠從微觀原子分子層次看到最宏觀的宇宙層次,我們這么做背后的原因是我們看到了自然科學(xué)本身是有共性的。

有一門科學(xué)建立了它們之間的關(guān)系:粒子天體物理學(xué)。

它利用的是在微觀粒子中的理論來幫助研究非常宏觀的宇宙天體的問題。

既然在科學(xué)上本身有共性,我們以AI眼光看待從微觀到宏觀的自然科學(xué)的時候,實(shí)際上它們也有共性的問題。比如我前面所提到的少樣本少標(biāo)注。

由于時間關(guān)系我們不會介紹所有的。拿少標(biāo)注問題來說,我舉其中一個例子:

在生命科學(xué)方面,我們希望利用各個不同組學(xué)信息讓AI模型做各種各樣的問題。

比如我們在RNA轉(zhuǎn)錄組方面的探索。RNA是一個AUCG一維的序列,我們有了這樣的序列以后,希望從這樣的輸入信息對RNA本身有什么樣的功能和結(jié)構(gòu)進(jìn)行預(yù)測。

這樣一個看起來能夠利用深度學(xué)習(xí)做的事情,我們面臨什么樣的問題呢?

我們做的是結(jié)構(gòu)預(yù)測這件事情,但結(jié)構(gòu)樣本的數(shù)目目前不足六千,如果你能得到重要的RNA結(jié)構(gòu)又是剛才說的故事,一年發(fā)一篇Nature文章。這意味著只有頂尖學(xué)者才能得到其中的12個樣本,非常少。

如果要處理好這個問題RNA本身有很多序列,不知道功能的序列很多。我們可以利用不知道的標(biāo)簽數(shù)據(jù)做無監(jiān)督學(xué)習(xí),把數(shù)據(jù)本身當(dāng)成標(biāo)注做個自監(jiān)督的學(xué)習(xí)方法,就能夠得到預(yù)訓(xùn)練的模型。

利用這個模型再去做下游任務(wù)的時候,因?yàn)橛辛俗员O(jiān)督方法,會讓我們下游任務(wù)做的更好。

實(shí)驗(yàn)發(fā)現(xiàn),這個方法能在很多像結(jié)構(gòu)功能這樣的預(yù)測上達(dá)到很好的效果。

風(fēng)烏氣象大模型超越DeepMind

另外我們實(shí)驗(yàn)室的一個探索是地球科學(xué)方面,目前主要關(guān)注的是氣象。

這個問題中國早在秦漢時期就開始嘗試感知?dú)庀罅,?dāng)時利用的設(shè)備叫做相風(fēng)銅烏。首先感知到氣象才能預(yù)測到氣象。

中國古代預(yù)測氣象依靠什么?觀天象,欽天監(jiān)就是干這件事情的,但在那個時候主要依賴的是人的判斷,而不是利用科學(xué)模型。

來到現(xiàn)代,開始有人提出來我們是不是可以利用物理模型做這件事呢?

早在100多年以前,來自于歐洲和美國的兩位學(xué)者確實(shí)提了,經(jīng)過一百年的探索以后大家發(fā)現(xiàn),每經(jīng)過十年的研究,能夠?qū)⒂行ьA(yù)報(bào)的能力提高一天。

這說明兩件事情:

第一,利用物理方法去做氣象預(yù)報(bào)是可行的。

第二,隨著物理方法的改善以及計(jì)算量能力的增長,預(yù)報(bào)能力在逐年提高。

在國內(nèi)外,研究機(jī)構(gòu)和高校相應(yīng)地開設(shè)了研究部門來做這方面的研究。

我們的實(shí)驗(yàn)室也是,基于多任務(wù)學(xué)習(xí)的印度洋偶極子預(yù)測,首次將印度洋核心氣候指標(biāo)的可用預(yù)報(bào)技巧提前至7個月。

另外一個工作就是風(fēng)烏模型,它的名字來自于我們剛才說的相風(fēng)銅烏。

該模型輸入全球當(dāng)前時刻五個氣象要素,溫度、濕度、風(fēng)速等,利用這些要素來預(yù)測下一個小時的溫度、濕度等。然后把它的結(jié)果和數(shù)據(jù)放到風(fēng)烏里面再預(yù)測下一個時刻,下下時刻。

這是風(fēng)烏的整個運(yùn)行模式,跟目前利用物理方法做這個事情是同一個邏輯。

利用這個模式我們可以預(yù)測未來1天、2天、10天、14天的結(jié)果。

并且還可以利用歷史上的數(shù)據(jù),比如前年的數(shù)據(jù)去預(yù)測去年。這個時候我們數(shù)據(jù)本身就是要預(yù)測的標(biāo)注了,它的邏輯跟做疾病預(yù)測是類似的。

風(fēng)烏模型的創(chuàng)新點(diǎn)包括基于多模態(tài)多任務(wù)的網(wǎng)絡(luò)設(shè)計(jì)。

以往方法只是認(rèn)為它們是跟圖象里的RGB一樣,直接把它們?nèi)繉拥揭黄穑o到一個模型就行。然而我們利用多模態(tài)方法做這件事情,效果很好。

另一方面,我們認(rèn)為既然這是多模態(tài)問題,那就可以類似地來看輸出,讓它成為多任務(wù)的問題,利用多任務(wù)學(xué)習(xí)方法可以自動調(diào)節(jié)各個不同要素的重要性。

最終對比DeepMind在Science上發(fā)表的GraphCast模型,我們的方法在80%指標(biāo)上都獲得了更好的性能。

此外,我們也是首次讓有效預(yù)報(bào)天數(shù)超過10天的氣象預(yù)報(bào)模型,利用我們的方法可以只用一張GPU一分鐘生成未來14天全球所有的地區(qū)的高精度氣象預(yù)報(bào)結(jié)果。

這是我們的方法在中國氣象局實(shí)際操作預(yù)測的結(jié)果。

右上角是不同預(yù)報(bào)模型的結(jié)果,包括來自于歐洲、美國等等的,右下角結(jié)果是最終他們測定的真實(shí)結(jié)果。

可以看到,我們比較準(zhǔn)確的預(yù)測到這個臺風(fēng)能走到雷州半島,這個方法準(zhǔn)確率最高。

另一方面,第三方機(jī)構(gòu)對于前面一年和最近以來在中國登錄的所有臺風(fēng)預(yù)測也做過統(tǒng)計(jì),結(jié)果發(fā)現(xiàn),我們方法相對已有的物理方法以及AI方法都是更好的。

總結(jié)而言,AI for Science是跟其他領(lǐng)域有著類似問題的領(lǐng)域,AI for Science在未來將會對于整個自然科學(xué)領(lǐng)域帶來更深刻的影響。

在這方面我們希望能夠與自然科學(xué)方面頂尖的學(xué)者進(jìn)行合作,來做出來更多的突破工作,也歡迎大家聯(lián)系我們進(jìn)行合作,謝謝大家。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港