展會信息港展會大全

Bengio團隊Nature發(fā)文:四個維度講AI for Science,還討論了AI跨界核心挑戰(zhàn)
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-08-18 09:15:05   瀏覽:14400次  

導讀:西風 發(fā)自 凹非寺 量子位 | 公眾號 QbitAI 最近,Yoshua Bengio帶領團隊展示了一場人工智能十年跨界秀。 從數(shù)據(jù)收集到模型構建,從實驗設計到過程控制,AI跨界正在改變科學研究方式,成為科學發(fā)現(xiàn)引擎。 盡管科學實踐因科學研究階段而異,但AI的發(fā)展跨越了傳...

西風 發(fā)自 凹非寺

量子位 | 公眾號 QbitAI

最近,Yoshua Bengio帶領團隊展示了一場人工智能十年跨界秀。

從數(shù)據(jù)收集到模型構建,從實驗設計到過程控制,AI跨界正在改變科學研究方式,成為科學發(fā)現(xiàn)引擎。

盡管科學實踐因科學研究階段而異,但AI的發(fā)展跨越了傳統(tǒng)上孤立的學科。

例如在粒子物理實驗中,每秒產(chǎn)生的海量數(shù)據(jù)難以處理和存儲,人工智能模型可以通過異常檢測算法在實時流中找出稀有事件,大大減少存儲壓力。

在生物信息學領域,人工智能可以給海量未標注的基因序列賦予功能注釋,幫助后續(xù)模型的訓練。

AI正賦能眾多科學領域的研究發(fā)現(xiàn),融入科學發(fā)現(xiàn)的假設形成、實驗設計、數(shù)據(jù)收集和分析各個階段。

在“Scientific discovery in the age of artificial intelligence”這篇三位華人一作、Yoshua Bengio領銜的論文中,作者詳解了自監(jiān)督學習、幾何深度學習、生成式人工智能等技術在科學研究中的應用,并提出了目前AI跨界仍存在的核心問題,目前該論文已刊于Nature綜述文章。

來看大佬如何總結AI for Science。

十年科學發(fā)現(xiàn)中AI的身影

在這篇論文中,研究人員從AI輔助的科學研究數(shù)據(jù)收集和整理、學習有意義的科學數(shù)據(jù)表示、使用AI生成科學假說、AI驅(qū)動的實驗和模擬幾個方面講述了近年來AI在科學研究中的應用。

AI輔助的科學研究數(shù)據(jù)收集和整理

科學發(fā)現(xiàn)和理論的形成基于數(shù)據(jù)的收集、轉(zhuǎn)化和理解,過去十年AI在數(shù)據(jù)的選擇、標注、生成、精化等方面得到了廣泛應用。

在數(shù)據(jù)選擇(Data selection)方面,隨著科學實驗中收集的數(shù)據(jù)集規(guī)模和復雜性不斷增加,科學研究越來越依賴實時處理和高性能計算來選擇性地存儲和分析數(shù)據(jù)。

一個典型案例就是粒子碰撞實驗,每秒將生成超100TB的數(shù)據(jù),這給數(shù)據(jù)傳輸和存儲帶來巨大挑戰(zhàn)。

在這類物理實驗中,超過99.99%的原始數(shù)據(jù)都屬于背景事件,需要實時檢測并丟棄。

為了識別用于科學研究的罕見事件,深度學習方法取代了預編程的硬件事件觸發(fā)器,而是使用算法搜索異常信號,并檢測出可能被忽略的罕見現(xiàn)象。

這種無監(jiān)督方法不需要標注樣本,已被廣泛應用在物理、神經(jīng)科學、地球科學等領域。

在數(shù)據(jù)標注(Data annotation)方面,訓練監(jiān)督學習模型需要大量標注過的數(shù)據(jù)集來提供監(jiān)督信息,但是科研數(shù)據(jù)的標注工作非常耗時耗力。

AI的加入提供了用半監(jiān)督學習方法自動標注大規(guī)模無標注數(shù)據(jù)集的選擇:

(1) 偽標記(Pseudo-labelling):使用預訓練模型為無標注樣本生成偽標簽,然后用這些偽標簽來訓練后續(xù)預測模型。

(2) 標簽傳播(Label propagation):基于特征嵌入構建樣本相似圖,然后將已有標簽擴散到無標注樣本上。

(3) 主動學習(Active learning):識別人類標注的最具信息量的數(shù)據(jù)點,或者確定要執(zhí)行的最具信息量的實驗。

在數(shù)據(jù)生成(Data generation)方面,提高訓練數(shù)據(jù)的質(zhì)量、多樣性和規(guī)?梢愿纳粕疃葘W習的性能。

文中提到了兩種主要的合成數(shù)據(jù)增強方法:

(1) 自動數(shù)據(jù)增強:手動設計或用增強學習方法發(fā)現(xiàn)自動數(shù)據(jù)增強策略。

(2) 深度生成模型:可以學習底層數(shù)據(jù)分布,然后從優(yōu)化的分布中采樣新的訓練點。

生成對抗網(wǎng)絡(GAN)已被證明對科研圖像合成有益,可以合成各領域的逼真圖像。

此外,概率編程,用計算機程序表達數(shù)據(jù)生成模型,是一種新興的可編程生成建模方法。

目前,生成數(shù)據(jù)已被廣泛應用于粒子物理、病理切片、X光、MRI、材料微結構、蛋白功能等領域。

在數(shù)據(jù)精化(Data refinements)方面,超高分辨率激光器等高精度儀器可以直接或間接測量真實世界對象,產(chǎn)生高度準確的數(shù)據(jù)。

使用AI技術可以顯著提高測量分辨率,減少噪聲、消除誤差。

例如,深度卷積網(wǎng)絡可以將質(zhì)量較差的時空分辨率低的數(shù)據(jù)轉(zhuǎn)換為高質(zhì)量、超分辨率和結構化的圖像。

去噪自編碼器可以將高維輸入數(shù)據(jù)投影到更緊湊的基本特征表示中,變分自編碼器(VAE)通過潛在自編碼學習隨機表示,保留了基本數(shù)據(jù)特征,同時忽略了非基本的變化因素。

在科學實驗中應用的例子包括可視化時空區(qū)域,如黑洞、捕捉物理粒子碰撞、提高活細胞圖像的分辨率等。

學習有意義的科學數(shù)據(jù)表示

深度學習能夠在不同抽象層次上提取科學數(shù)據(jù)的有意義表示,并通過端到端學習來優(yōu)化這些表示用于指導研究。

優(yōu)質(zhì)的表示應簡潔并保留盡可能多的信息?茖W上有意義的表示應具有緊湊性、可區(qū)分性、可解耦性以及對下游任務的泛化能力。

研究人員介紹了三種滿足這些要求的新興策略:幾何先驗、自監(jiān)督學習和語言建模。

1、幾何先驗

幾何先驗的應用能夠有效地捕捉數(shù)據(jù)的幾何和結構特征,這在科學領域尤為重要。

對稱性是其中的一個關鍵概念,可以用不變性和等變性來描述,用于表示數(shù)學函數(shù)在一組變換下的行為規(guī)律。

比如一些重要的結構屬性,像分子系統(tǒng)的二級結構、溶劑可及性、殘基緊湊性和氫鍵模式等,在空間方向上是不變的。

在科學圖像分析中,對象在圖像中平移時不會改變,這意味著圖像分割掩碼是平移等變的,因為它們在平移輸入像素時等效地變化。

通過將對稱性等因素納入模型中,可以改善在少標注數(shù)據(jù)集下的AI應用。通過增加訓練樣本,可以改進對于與模型訓練過程中遇到的輸入顯著不同的外推預測。

圖神經(jīng)網(wǎng)絡已成為在具有底層幾何和關系結構的數(shù)據(jù)集上進行深度學習的主要方法之一。

幾何深度學習顯式利用局部化的圖信息或變換群信息,通過神經(jīng)消息傳遞算法學習關系模式。

2、自監(jiān)督學習

在標注數(shù)據(jù)不足時,僅依賴監(jiān)督學習是不夠的,利用無標注數(shù)據(jù)可以提高模型性能和學習能力。

自監(jiān)督學習使用無標注數(shù)據(jù)來學習一般特征,主要策略包括:

預測圖像的遮擋區(qū)域

預測視頻的前后幀

對比學習使模型區(qū)分相似和不相似數(shù)據(jù)點

自監(jiān)督學習可以預訓練模型抓取大規(guī)模無標注數(shù)據(jù)的特征,然后在小規(guī)模標注數(shù)據(jù)上微調(diào)。

3、語言建模

語言建模是一種流行的自監(jiān)督學習方法,可以用于學習自然語言和生物序列的特征。

在訓練過程中,主要目標是預測序列中的下一個token,而在基于掩碼的訓練中,自監(jiān)督任務是使用雙向序列上下文來恢復序列中的掩碼token。

原子或氨基酸的排列類似于字母組成單詞和句子,用于定義分子和生物功能的結構。蛋白質(zhì)語言模型可以編碼氨基酸序列以捕捉其結構和功能特性,并評估病毒變異的進化適應性。

這些表示方法可以在各種任務中傳遞應用,包括序列設計和結構預測。在處理生物化學序列時,化學語言模型能夠有效地探索廣闊的化學空間,用于預測性質(zhì)、計劃合成過程以及探索化學反應的可能性。

說到這里,就不得不提Transformer架構,它能夠通過靈活地建模任意token對之間的交互,從而處理token序列,超越了使用循環(huán)神經(jīng)網(wǎng)絡進行序列建模的早期嘗試。

在自然語言處理領域,Transformer已占據(jù)主導地位,并成功應用于地震信號檢測、DNA 和蛋白質(zhì)序列建模、模擬序列變異對生物功能的影響、符號回歸等系列問題。

使用AI生成科學假說

可檢驗的假設是科學發(fā)現(xiàn)的核心,它們可以來源于數(shù)學中的符號表達式、化學中的分子、生物學中的基因變異……

但提出這樣一種有意義的假設可能需要漫長的時間,正如Johannes Kepler,花費了四年時間分析恒星和行星數(shù)據(jù),才得出了一個能發(fā)現(xiàn)行星運動定律的假設。

AI可以以下幾種方式幫助提出科學假說:

(1) 黑箱預測器:高通量快速篩選候選假說,選擇有價值的進行后續(xù)驗證。

(2) 導航組合假說空間:使用強化學習評估每次搜索的回報,聚焦在最有前景的假說要素上。

(3) 優(yōu)化可微假說空間:將離散假說空間映射到連續(xù)可微空間進行優(yōu)化。

這些AI方法為科學假說的生成、評價和選擇提供了強有力的新工具。

AI驅(qū)動的實驗和模擬

通過實驗評估科學假設對于科學發(fā)現(xiàn)至關重要,但實驗成本高昂。

AI技術可以優(yōu)化實驗的參數(shù)設置、步驟設計等,減少不必要的試驗,提高資源利用效率。

強化學習可以根據(jù)實時反饋動態(tài)調(diào)整實驗方向,最大化實驗成功率和安全性。

計算模擬可以探索實際難以實現(xiàn)的情況,補充實驗。但是依賴于人為設置的簡化參數(shù)和啟發(fā)式方法,精度和效率存在局限。

然而,隨著深度學習的出現(xiàn),通過識別和優(yōu)化假設進行有效測試,以及使計算機模擬能夠?qū)⒂^察結果與假設聯(lián)系起來,這些問題正被解決。

這些AI驅(qū)動的實驗優(yōu)化和計算模擬方法,已經(jīng)在量子物理、化學合成、聚變反應堆控制等領域展現(xiàn)出價值。

AI跨界面臨重大挑戰(zhàn)

值得一提的是,文章還討論了AI在科學發(fā)現(xiàn)中面臨的挑戰(zhàn)。

人工智能系統(tǒng)可以成為科學家發(fā)現(xiàn)新知識的重要助手,但也存在潛在的安全隱患。

例如,科學數(shù)據(jù)存在不完整、偏差等問題,需要規(guī)范化;還須要考慮數(shù)據(jù)的可訪問性、隱私等。模型和數(shù)據(jù)的標準化也很必要。

其次,分布偏移是一個核心問題,需要增強模型的泛化能力。處理多模態(tài)科學數(shù)據(jù)仍有挑戰(zhàn),如何系統(tǒng)地整合科學知識和原理也需要進一步探索,增強模型的解釋性和可信度亦很重要。

此外,AI專業(yè)人才短缺和計算資源需求巨大,需要產(chǎn)學界進一步合作,科學家需要掌握AI的適用性,還需建立倫理審查流程。

研究人員認為:

AI工具的錯誤應用和對其結果的錯誤解讀可能會產(chǎn)生重大的負面影響。廣泛的應用范圍使這些風險變得更加復雜。

然而,人工智能的濫用不僅僅是一個技術問題,還取決于領導人工智能創(chuàng)新和投資人工智能實施的動機。建立道德審查流程和負責任的實施策略至關重要,包括對人工智能的范圍和適用性進行全面審查。

團隊介紹

除了Yoshua Bengio帶隊外,三位華人一作也格外引人注目,他們分別是:

Hanchen Wang

斯坦福大學CS和Genentech聯(lián)合博士后研究員,劍橋大學ML博士學位。

Tianfan Fu

伊利諾伊大學香檳分校計算機科學系博士后研究員,佐治亞理工學院計算科學與工程系博士學位。

Yuanqi Du

康奈爾大學計算機科學博士研究生,2021年獲喬治梅森大學計算機科學學士學位。

傳送門:https://www.nature.com/articles/s41586-023-06221-2(論文鏈接)

贊助本站

人工智能實驗室
相關內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港