展會信息港展會大全

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-10-09 18:45:04   瀏覽:1578次  

導(dǎo)讀:劃重點(diǎn) 01谷歌DeepMind的AlphaFold2在2020年CASP競賽中預(yù)測蛋白質(zhì)結(jié)構(gòu),準(zhǔn)確度高達(dá)90分以上,引發(fā)科學(xué)界關(guān)注。 02然而,AlphaFold2在預(yù)測某些點(diǎn)突變和蛋白質(zhì)與環(huán)境相互作用方面仍有局限,需要實(shí)驗(yàn)驗(yàn)證。 03為此,研究人員正在開發(fā)更先進(jìn)的算法,如AlphaFold3...

劃重點(diǎn)

01谷歌DeepMind的AlphaFold2在2020年CASP競賽中預(yù)測蛋白質(zhì)結(jié)構(gòu),準(zhǔn)確度高達(dá)90分以上,引發(fā)科學(xué)界關(guān)注。

02然而,AlphaFold2在預(yù)測某些點(diǎn)突變和蛋白質(zhì)與環(huán)境相互作用方面仍有局限,需要實(shí)驗(yàn)驗(yàn)證。

03為此,研究人員正在開發(fā)更先進(jìn)的算法,如AlphaFold3和RoseTTAFold All-Atom,以提高預(yù)測準(zhǔn)確性。

04同時,蛋白質(zhì)科學(xué)領(lǐng)域的研究人員正嘗試將深度學(xué)習(xí)與冷凍電鏡等技術(shù)相結(jié)合,以更好地研究蛋白質(zhì)結(jié)構(gòu)。

05盡管AlphaFold2的成功引發(fā)了關(guān)于人工智能在科學(xué)領(lǐng)域應(yīng)用的討論,但科學(xué)家們?nèi)詧?jiān)信理解基本原理對于科學(xué)發(fā)展至關(guān)重要。

以上內(nèi)容由騰訊混元大模型生成,僅供參考

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

2024年諾貝爾化學(xué)獎公布,一半授予大衛(wèi)貝克(David Baker),“以表彰在計算蛋白質(zhì)設(shè)計方面的貢獻(xiàn)”;另一半則共同授予德米斯哈薩比斯(Demis Hassabis)和約翰M詹珀(John M. Jumper),“以表彰他們在蛋白質(zhì)結(jié)構(gòu)預(yù)測方面的成就”。

德米斯哈薩比斯和約翰詹珀成功地利用人工智能技術(shù)預(yù)測了幾乎所有已知蛋白質(zhì)的結(jié)構(gòu)。而大衛(wèi)貝克掌握了生命的構(gòu)建模塊,并創(chuàng)造了全新的蛋白質(zhì)。本文將為你詳解AlphaFold的歷史,以及它為何值得獲獎。

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

2020 年 12 月,由于新冠疫情限制了大家的活動,許多人無法親自參加會議,數(shù)百名計算科學(xué)家聚集在屏幕前,共同見證科學(xué)新時代的到來。

他們聚集在一起是為了參加一個會議,一個持續(xù)近三十年的友誼賽。他們其中有些人親身參與過這項(xiàng)賽事,并通過這項(xiàng)比賽同聚一堂,癡迷于探討同一個問題這便是蛋白質(zhì)折疊問題。簡單來說就是:我們能否根據(jù)最基本的信息也就是蛋白質(zhì)分子的一維分子編碼準(zhǔn)確預(yù)測出其三維結(jié)構(gòu)?蛋白質(zhì)讓人類細(xì)胞和身體保持活力和正常運(yùn)轉(zhuǎn)。由于蛋白質(zhì)的結(jié)構(gòu)決定了它的行為,因此成功解決這個問題將對我們了解疾并研發(fā)新藥和理解生命體的運(yùn)作方式產(chǎn)生深遠(yuǎn)影響。

在每兩年舉行一次的會議上,科學(xué)家們將用最新的蛋白質(zhì)折疊工具做測試。但解決方案似乎總是遙不可及。有些人窮極一生都在力求逐步提高預(yù)測的準(zhǔn)確性,因此這項(xiàng)賽事只能說是蹣跚前行,參賽的研究者們沒有理由認(rèn)為2020年會有所不同。

但他們想錯了。

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

一串一維的分子如何正確折疊成特定的三維結(jié)構(gòu)?這被稱為蛋白質(zhì)折疊(protein folding problem)的問題近期被人工智能解決了。圖源:Fran Pulido

比賽當(dāng)周,蛋白質(zhì)科學(xué)界的新秀John Jumper展示了谷歌 DeepMind在倫敦的人工智能分部推出的最新人工智能工具:AlphaFold2。他通過Zoom會議分享的相關(guān)數(shù)據(jù)顯示,AlphaFold2的三維蛋白質(zhì)結(jié)構(gòu)預(yù)測模型準(zhǔn)確率超過90%,比最接近的競爭對手高出5倍。

一瞬間,蛋白質(zhì)折疊問題的解決方案從遙不可及變?yōu)榱送偈挚傻谩H斯ぶ悄茌p松地過了人類智慧舉步維艱的泥潭,這震撼了整個生物學(xué)界。出席會議的哥倫比亞大學(xué)數(shù)學(xué)基因組學(xué)項(xiàng)目的系統(tǒng)生物學(xué)家Mohammed AlQuraishi表示:“我感到非常震驚。很多人都拒絕接受這個現(xiàn)實(shí)。”

但在總結(jié)陳詞時,會議組織者John Moult打消了所有疑慮。他幾乎斬釘截鐵地表示:AlphaFold2已經(jīng)“基本解決”了蛋白質(zhì)折疊問題,并永遠(yuǎn)改變了蛋白質(zhì)科學(xué)。他穿著黑色高領(lǐng)毛衣,坐在家中辦公室的書架前,用Zoom分享著自己的幻燈片,“這不是結(jié)束,而是開始,”他這樣說道,語氣既令人興奮又令人擔(dān)憂。

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

蛋白質(zhì)是具有數(shù)億種不同結(jié)構(gòu)的分子。每一種都具有特定的生物功能,有些負(fù)責(zé)在血液中輸送氧氣,有些則負(fù)責(zé)引發(fā)化學(xué)反應(yīng)。具體功能通常由其形狀或結(jié)構(gòu)決定。

上:從左往右依次為SARS-COV-2刺突蛋白、新冠疫苗靶點(diǎn);5-羥色胺受體、管控情緒與消化;血紅蛋白、輸送血液中的氧氣;細(xì)胞因子、調(diào)節(jié)免疫防御。

下:從左往右依次為膠原蛋白、讓組織成型;螢火蟲螢光素酶、發(fā)光;抗體、鑒別外來物質(zhì);胰島素、調(diào)節(jié)血糖;淀粉酶、消化淀粉;瘦素、控制食欲。圖源:RCSB PDB

當(dāng)谷歌的公關(guān)部門向全世界發(fā)布這一消息時,媒體為之瘋狂。AlphaFold2“將會改變一切”的說法占據(jù)了各大新聞的頭版頭條。那些畢生致力于研究單個蛋白質(zhì)結(jié)構(gòu)的蛋白質(zhì)生物學(xué)家擔(dān)心自己會丟掉飯碗。還有人聲稱,AlphaFold2將徹底改變藥物研發(fā),因?yàn)樯飳W(xué)家可以快速了解蛋白質(zhì)的結(jié)構(gòu),從而更高效地研發(fā)出以蛋白質(zhì)為靶點(diǎn)的新藥。其他人則反駁說,這些結(jié)果大多是炒作,不會帶來實(shí)質(zhì)性改變。

Moult自己也幾乎無法理解這件事本身意味著什么。他在會議最后問出了大家都想問的問題:“接下來怎么辦?”

這個問題已經(jīng)是三年半以前的事了,現(xiàn)在我們終于能夠嘗試回答他的問題了。

不可否認(rèn),AlphaFold2的確改變了生物學(xué)家研究蛋白質(zhì)的方式。然而,雖然AlphaFold2是一個強(qiáng)大的預(yù)測工具,但它并不是一個全知全能的機(jī)器。它非常巧妙地解決了蛋白質(zhì)折疊問題的一部分,但并不是科學(xué)家所想的那樣。它并沒有取代生物實(shí)驗(yàn),而是強(qiáng)調(diào)了生物實(shí)驗(yàn)的必要性。

AlphaFold2最大的影響可能是讓生物學(xué)家關(guān)注人工智能的力量。它已經(jīng)啟發(fā)了新的算法,包括設(shè)計在自然界中不存在的新蛋白質(zhì)的算法。此外,它還催生了新型生物技術(shù)公司,引領(lǐng)了新的科學(xué)實(shí)踐方式。2024年5月,其繼任者AlphaFold3發(fā)布,它能夠模擬蛋白質(zhì)和DNA或RNA等其他分子的結(jié)構(gòu)與相互作用,標(biāo)志著生物領(lǐng)域的預(yù)測模型進(jìn)入了新的發(fā)展階段。

AlQuraishi表示:“這是迄今為止科學(xué)領(lǐng)域最重要的‘機(jī)器學(xué)習(xí)’故事。”

然而,生物科學(xué)領(lǐng)域仍有許多人工智能未能跨越的鴻溝。這些工具無法模擬蛋白質(zhì)如何隨時間發(fā)生變化,也無法根據(jù)蛋白質(zhì)存在的環(huán)境(即細(xì)胞內(nèi))對其進(jìn)行建模。在勞倫斯伯克利國家實(shí)驗(yàn)室開發(fā)生物分子結(jié)構(gòu)建模算法的結(jié)構(gòu)生物學(xué)家Paul Adams表示:“AlphaFold似乎改變了一切,又好像什么都沒有改變。”

本文便是有關(guān)來自谷歌DeepMind的Jumper團(tuán)隊(duì)是如何變革蛋白質(zhì)科學(xué)及其如何影響人工智能在生物學(xué)領(lǐng)域未來應(yīng)用的故事。

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

前夜

(1)物理基礎(chǔ)

一張折紙?jiān)谝蕴囟ǚ绞秸郫B之前,只不過是壓制的木漿,而在折疊之后,它才能煥然一新。幾經(jīng)精妙的卷曲與翻折,它就變成了一個紙制的算命工具,可以用來預(yù)測你的未來。而只需改變幾個折疊步驟,同一張紙就可以變成一只展翅飛翔的仙鶴,給人帶來好運(yùn)。

同樣,一長串氨基酸分子在自發(fā)折疊成其固有形狀(生物學(xué)家稱之為結(jié)構(gòu))之前沒有任何功能。蛋白質(zhì)的結(jié)構(gòu)決定了它如何與其他分子結(jié)合或相互作用,因此也決定了它在細(xì)胞中的作用。

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

圖源:Mark Belan,翻譯:vicky,制圖:存源

地球上有幾億種已知的蛋白質(zhì),還有更多未知的蛋白質(zhì)。它們無所不能:血紅蛋白和肌紅蛋白將氧氣運(yùn)送到肌肉和身體各處。角蛋白構(gòu)成頭發(fā)、指甲和皮膚的外層結(jié)構(gòu)。胰島素使葡萄糖進(jìn)入細(xì)胞,轉(zhuǎn)化為能量。蛋白質(zhì)的形態(tài)似乎變幻莫測,以滿足實(shí)際生活中各種各樣的需求。

“從原子到生態(tài)系統(tǒng),(蛋白質(zhì)結(jié)構(gòu))像是一種通用語言,是一切的起源,”AlQuraishi說道。

細(xì)胞通過菊花鏈的方式將氨基酸這種小分子連接成長長的多肽串,從而生成蛋白質(zhì)。它所選擇的氨基酸取決于DNA提供給它的一組基本指令。生成后不到一秒,多肽串就會開始精確地彎曲、扣合、折疊成蛋白質(zhì)的最終三維結(jié)構(gòu)。一旦裝配完成,它們便會立刻開始履行自己的生物職能。

如果蛋白質(zhì)不能很好地完成這一折疊過程,那么人體將會經(jīng)受一系列危及性命的打擊。錯誤折疊或結(jié)構(gòu)解開的蛋白質(zhì)會導(dǎo)致中毒和細(xì)胞死亡。許多疾病和失調(diào)都是由錯誤折疊的蛋白質(zhì)引起的,如鐮狀細(xì)胞貧血。此類蛋白質(zhì)還會聚集成塊,這也是阿爾茨海默病和帕金森病等神經(jīng)退行性疾病的特征。

然而,沒有人真正了解蛋白質(zhì)是如何折疊的。這些簡單分子鏈中的序列信息又是如何編碼蛋白質(zhì)的復(fù)雜結(jié)構(gòu)呢?約翰霍普金斯大學(xué)生物物理學(xué)名譽(yù)教授George Rose表示“這是我們能提出的最深奧的問題。”

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

20世紀(jì)50年代,生物化學(xué)家Christian Anfinsen進(jìn)行的實(shí)驗(yàn)表明,氨基酸串內(nèi)部含有一種內(nèi)在的代碼,指示它如何折疊成蛋白質(zhì)并且應(yīng)該有一種方法可以從這一代碼中預(yù)測蛋白質(zhì)的結(jié)構(gòu)。這個假設(shè)被稱為安芬森教條(Anfinsen’s dogma)。圖源:PBH Images/Alamy

早在20世紀(jì)30年代,科學(xué)家們就開始探究這個問題。但真正取得突破要等到20世紀(jì)50年代中期,當(dāng)時一位名叫Christian Anfinsen的生物化學(xué)家將蛋白質(zhì)加入化學(xué)溶液中,這一做法要么會導(dǎo)致蛋白質(zhì)的鍵斷裂,使其結(jié)構(gòu)展開;要么會導(dǎo)致蛋白質(zhì)發(fā)生錯誤折疊。通過觀察,他發(fā)現(xiàn),展開或折疊錯誤的蛋白質(zhì)可以自發(fā)地重新折疊成正確的結(jié)構(gòu)。這一發(fā)現(xiàn)證明了蛋白質(zhì)的三維結(jié)構(gòu)是由內(nèi)部編碼(由氨基酸串的編碼)決定的,Christian Anfinsen也憑此獲得了諾貝爾獎。

基于這一發(fā)現(xiàn),Anfinsen提出了一個假設(shè):應(yīng)該有一種方法可以根據(jù)氨基酸序列預(yù)測蛋白質(zhì)的結(jié)構(gòu)這就是后來廣為人知的蛋白質(zhì)折疊問題。

一旦多肽鏈組裝完成,它們就能在千分之一秒內(nèi)折疊成正確的結(jié)構(gòu),速度之快令分子生物學(xué)家Cyrus Levinthal咋舌。在1969年發(fā)表的論文《如何優(yōu)雅地折疊》(How to Fold Graciously)中,Levinthal計算出,如果一個蛋白質(zhì)要嘗試每一種可能的折疊方案,那么它的組裝時間將長得無法想象。他推測,顯然是有某種更為直接地方式引導(dǎo)了蛋白質(zhì)的正確折疊。

隨著時間的推移,蛋白質(zhì)折疊問題又衍生出新的問題,主要有三個:能否根據(jù)氨基酸序列預(yù)測蛋白質(zhì)的結(jié)構(gòu)?折疊編碼是什么?折疊機(jī)制是什么?

20 世紀(jì) 60 年代初,當(dāng)?shù)谝慌ㄟ^實(shí)驗(yàn)決定的蛋白質(zhì)結(jié)構(gòu)問世時,這些問題開始在科學(xué)家的心中生根發(fā)芽。劍橋大學(xué)的兩位生物學(xué)家Max Perutz和John Kendrew將蛋白質(zhì)培育成晶體,用X射線轟擊它們,并測量射線如何彎曲這種技術(shù)被稱為X射線晶體學(xué)(X-ray crystallography)。通過這種方法,他們確定了血紅蛋白和肌紅蛋白的三維結(jié)構(gòu)。這項(xiàng)實(shí)驗(yàn)耗時二十多年,為兩人贏得了諾貝爾獎。

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

John Kendrew(左)和Max Perutz(右)利用 X 射線晶體學(xué)仔細(xì)揭示了血紅蛋白和肌紅蛋白的結(jié)構(gòu)。隨后,他們使用小球(代表原子)和棍子(代表化學(xué)鍵)構(gòu)建了物理模型。圖源:MRC Laboratory of Molecular Biology

從那時起,無數(shù)研究人員不懈努力,試圖了解不同蛋白質(zhì)的結(jié)構(gòu),及其底層的機(jī)制。格拉斯哥大學(xué)的結(jié)構(gòu)生物學(xué)家Helen Walden表示:“想弄清楚事物的外觀是人類的本能,因?yàn)檫@樣我們便能了解其功能。”還有一些科學(xué)家嘗試從化學(xué)或物理的角度解決問題。他們?nèi)諒?fù)一日地在實(shí)驗(yàn)室里辛勤工作,最終成功重建了蛋白質(zhì)的結(jié)構(gòu)。計算生物學(xué)家通過模型和模擬尋找線索,他們用不同的算法規(guī)則組合對模型和模擬進(jìn)行編程并不斷改進(jìn)更新。

隨著越來越多的蛋白質(zhì)結(jié)構(gòu)被發(fā)現(xiàn),蛋白質(zhì)科學(xué)界需要一種方法來組織和共享這些信息。1971年,蛋白質(zhì)數(shù)據(jù)庫(Protein Data Bank),作為一個存儲蛋白質(zhì)結(jié)構(gòu)的檔案庫,應(yīng)運(yùn)而生。該數(shù)據(jù)庫可免費(fèi)使用,對于所有想要通過了解蛋白質(zhì)結(jié)構(gòu)來探究生物問題的研究者來說,都是一個可靠的工具。

蛋白質(zhì)數(shù)據(jù)庫建立之初,只保存了7種蛋白質(zhì)的結(jié)構(gòu)。將近50年后,當(dāng)谷歌DeepMind利用它來訓(xùn)練AlphaFold2時,它已記錄了超過14萬種蛋白質(zhì)結(jié)構(gòu)每個結(jié)構(gòu)都是由結(jié)構(gòu)生物學(xué)家費(fèi)盡周折解碼出來的。

(2)實(shí)驗(yàn)派的苦惱

從20世紀(jì)70年代中期起,牛津大學(xué)的生物物理學(xué)家Janet Thornton每隔幾個月就會收到一個郵包。里面是一卷12英寸的磁帶,包含了存入蛋白質(zhì)數(shù)據(jù)庫的新蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)。她會迫不及待地撕開包裹,想要立刻開始分析新發(fā)現(xiàn)的蛋白質(zhì)結(jié)構(gòu)。她收到的第一盤磁帶上只包含20種蛋白質(zhì)結(jié)構(gòu)的數(shù)據(jù)。

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

“有很多學(xué)生說,‘我想來解決蛋白質(zhì)折疊問題,’”去年從歐洲分子生物學(xué)實(shí)驗(yàn)室退休的結(jié)構(gòu)生物學(xué)家Janet Thornton說。“但坦率地說,我對如何做到這一點(diǎn)沒有任何新想法。”圖源:Jeff Dowling, EMBL-EBI

磁帶記錄的每一個蛋白質(zhì)都是多年心血的結(jié)晶。通常情況下,一名博士生會在讀研的四年間或花費(fèi)更長時間研究單個蛋白質(zhì)的結(jié)晶,從中收集數(shù)據(jù)或解讀數(shù)據(jù),從而厘清其折疊結(jié)構(gòu)。

牛津大學(xué)生物物理系當(dāng)時是世界X射線晶體學(xué)中心之一。1965年,蛋白質(zhì)晶體學(xué)的先驅(qū)之一David Phillips在牛津大學(xué)首次測定了溶菌酶的結(jié)構(gòu),這種酶會被免疫系統(tǒng)用來對抗細(xì)菌。牛津大學(xué)的生物物理學(xué)家利用X射線晶體學(xué)繪制了蛋白質(zhì)的電子密度圖;電子聚集的區(qū)域很可能含有一個原子。Thornton和她的同事們將這些電子密度圖打印到塑料板上,然后將它們疊放在一起,從而繪制出蛋白質(zhì)的形態(tài)“輪廓圖”。

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

X射線晶體學(xué)可以幫助科學(xué)家繪制電子密度圖,直觀地顯示電子聚集的位置,從而顯示分子中可能存在原子的位置。通過將電子密度圖疊放在一起(左圖),科學(xué)家可以推斷出蛋白質(zhì)或青霉素等其他分子的結(jié)構(gòu)(右圖)。圖源:Science Museum Group

隨后,他們將輪廓圖轉(zhuǎn)換成了物理模型。他們先將塑料平面圖放入理查茲盒中以牛津大學(xué)生物物理學(xué)家弗雷德里克理查茲(Frederic Richards)命名的裝置,他于1968年發(fā)明了這種裝置。理查茲盒內(nèi)設(shè)有一面傾斜的鏡子,能將輪廓圖反射到一個工作區(qū)內(nèi),這讓科學(xué)家們能看到每個原子相對于其他原子的準(zhǔn)確位置。然后,他們用小球和棍子搭建出了一個物理模型。

這種方法既繁瑣又有局限性。1971年,Louise Johnson著手為磷酸化酶建模,包含842個氨基酸的磷酸化酶是當(dāng)時學(xué)界研究過的最大的蛋白質(zhì)。為了成功建立模型,Johnson不得不爬梯子進(jìn)入牛津大學(xué)專門為她的項(xiàng)目建造的兩層樓高的理查茲盒中。她日后成為了知名晶體學(xué)家。

模型完成后,科學(xué)家們用尺子測量了原子間的距離,從而得出蛋白質(zhì)結(jié)構(gòu)的各個坐標(biāo)。Thornton表示:“這種方法太過時了。”然后,他們將坐標(biāo)輸入計算機(jī)。她說,電腦上看起來就像一片茂密的森林,原子們雜亂無章地擠在一起。只有戴上3D眼鏡觀察結(jié)構(gòu)時,才能看清蛋白質(zhì)的拓?fù)浣Y(jié)構(gòu)。

“這個過程太折磨人了,能堅(jiān)持到底已經(jīng)非常了不起了,”Thornton感慨道。

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

X射線晶體學(xué)的工作原理。

年復(fù)一年,他們終于成功了。一旦研究人員確認(rèn)了自己所復(fù)構(gòu)的蛋白質(zhì)結(jié)構(gòu),他們就會將其提交給蛋白質(zhì)數(shù)據(jù)庫。到1984年,已有152個蛋白質(zhì)的結(jié)構(gòu)被存入了數(shù)據(jù)庫。1992年,這一數(shù)字攀升至747個。

當(dāng)實(shí)驗(yàn)學(xué)家們還在苦苦研究物理模型時,另一學(xué)派的蛋白質(zhì)生物學(xué)家計算科學(xué)家們卻采取了不同的方法。但是,當(dāng)他們考量Anfinsen所提出的假設(shè),即根據(jù)氨基酸序列預(yù)測蛋白質(zhì)結(jié)構(gòu)時,卻顯得有點(diǎn)過于自信了。

(3)制定規(guī)則

20世紀(jì)60年代初,John Moult還是一名大學(xué)生時,就計劃成為一名物理學(xué)家。后來,他了解到了蛋白質(zhì)折疊問題。他說:“有人來給我們講了一堂課,說生物學(xué)問題太重要了,不能留給生物學(xué)家來解決。我當(dāng)時很傲慢,所以當(dāng)真了。”被生物學(xué)迷住的他將職業(yè)生涯轉(zhuǎn)向了另一個方向。

畢業(yè)后,Moult進(jìn)入了蛋白質(zhì)晶體學(xué)領(lǐng)域。他解碼了幾種蛋白質(zhì)的結(jié)構(gòu),包括β-內(nèi)酰胺酶,這是一種能夠破壞青霉素的細(xì)菌酶。1970年,他在牛津大學(xué)獲得分子生物物理學(xué)博士學(xué)位。但當(dāng)開啟博士后研究后,他厭倦了實(shí)驗(yàn)派的方法,并開始轉(zhuǎn)向逐步發(fā)展壯大的計算派。計算生物學(xué)家與實(shí)驗(yàn)學(xué)家不同,他們編寫計算機(jī)算法,試圖證明Anfinsen的假設(shè),即他們可以向一個程序輸入一串氨基酸,從而生成正確的蛋白質(zhì)結(jié)構(gòu)。

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

John Moult與人共同創(chuàng)立了“結(jié)構(gòu)預(yù)測關(guān)鍵評估”(CASP) 實(shí)驗(yàn),迫使他自己和其他計算生物學(xué)家根據(jù)實(shí)驗(yàn)確定的蛋白質(zhì)結(jié)構(gòu),來測試他們的蛋白質(zhì)計算機(jī)模型。圖源:Umit Gulsen / Quanta Magazine

從生物實(shí)驗(yàn)到計算的轉(zhuǎn)變并非坦途。Moult已經(jīng)習(xí)慣了以慢工出細(xì)活地方式解析單一蛋白質(zhì)的結(jié)構(gòu)。但在計算生物學(xué)領(lǐng)域,每隔一段時間就有論文聲稱蛋白質(zhì)折疊問題和相關(guān)子問題已經(jīng)得到了解決。

Moult對此表示懷疑。他說:“在這一領(lǐng)域發(fā)表的論文不像我以前所在領(lǐng)域那樣嚴(yán)謹(jǐn)。這并不是說計算生物學(xué)領(lǐng)域都是騙子,而是因?yàn)榇祟愑嬎愎ぷ鞫际窃谔摂M世界中完成的。”

在虛擬世界中,當(dāng)自然界的規(guī)則不起作用時,計算學(xué)家們就會制定自己的規(guī)則。他們會設(shè)計算法,讓原子以某種方式粘在一起,或者讓蛋白質(zhì)總是向右或向左折疊。隨著時間的推移,這些模型變得越來越脫離現(xiàn)實(shí)。Moult認(rèn)為,在一個你可以完全控制的世界里,人很難保持嚴(yán)謹(jǐn)。

不過,他還是認(rèn)為兩種方法都有可取之處。實(shí)驗(yàn)派工作精細(xì),但速度緩慢;計算派進(jìn)展迅速,但卻遠(yuǎn)離生物物理現(xiàn)實(shí),以至于經(jīng)常出錯。

他想,一定有辦法把兩種方法的優(yōu)點(diǎn)結(jié)合起來。

(4)跺腳以示反對

20世紀(jì)90年代初,Moult和他的同事Krzysztof Fidelis想出了一個辦法來規(guī)范計算生物學(xué)領(lǐng)域的混亂局面。他們啟動了一個名為“結(jié)構(gòu)預(yù)測關(guān)鍵評估”(Critical Assessment of Structure Prediction,簡稱 CASP)的社區(qū)科學(xué)實(shí)驗(yàn)。

這個想法很簡單。作為CASP的發(fā)起人,Moult和Fidelis會公布一份蛋白質(zhì)氨基酸序列列表,上面列舉了近期已被解析的蛋白質(zhì)結(jié)構(gòu),相關(guān)數(shù)據(jù)由相應(yīng)的實(shí)驗(yàn)人員提供,但結(jié)果尚未發(fā)布。然后,世界各地的計算研究小組將使出渾身解數(shù)來預(yù)測蛋白質(zhì)的結(jié)構(gòu)。一個獨(dú)立的科學(xué)家小組將通過比較他們的答案和實(shí)驗(yàn)證實(shí)的結(jié)構(gòu)來評估這些預(yù)測模型。

這個想法被付諸實(shí)踐。于是,CASP很快就成為以計算方法解決蛋白質(zhì)折疊問題的試驗(yàn)常那時還沒有人工智能,計算方法主要是模擬分子的物理學(xué)原理。這是科學(xué)家們公開與同行同場競技,驗(yàn)證自己觀點(diǎn)的機(jī)會。Thornton表示:“CASP本意并不是為了比賽,但實(shí)際上已經(jīng)成為一項(xiàng)賽事。”

CASP每兩年舉辦一次,科學(xué)家們會在阿西洛馬會議中心齊聚一堂,這是加利福尼亞州蒙特雷附近一座古老的小教堂,曾經(jīng)是衛(wèi)理公會教徒的隱居地。與會期間,組織者會宣布競賽結(jié)果,計算學(xué)家們會發(fā)表演講,介紹自己所用的方法。Moult鼓勵與會者如果不贊同陳述的內(nèi)容,可以在木地板上跺幾腳以示反對。

他說:“剛開始的時候,跺腳聲確實(shí)是此起彼伏。”

曾師從Thornton的倫敦大學(xué)學(xué)院生物信息學(xué)教授David Jones回憶說:“跺腳聲仿佛鼓聲一樣。”如果演講者所分享的細(xì)節(jié)太冗長,生物學(xué)家們會跺腳;如果陳述內(nèi)容夸大其詞,他們也會跺腳;如果演講者的觀點(diǎn)重復(fù)或過于雜亂,他們還會跺腳。Jones表示:“跺腳聲并不討厭,”因?yàn)檫@都是善意的聲音。

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

早期的CASP會議在加利福尼亞州蒙特雷的阿西洛瑪會議中心舉行。當(dāng)與會者在木地板上跺腳時,聲音就像鼓聲一樣。圖源:Aramark Destinations

不管跺腳是出于什么原因,當(dāng)跺腳聲在演講者耳邊響起時,都會讓人感到尷尬。Jones說:“感謝老天爺,我演講時沒人跺過腳。有一年,他和同事們提出了一種名為“穿線法(threading)”的計算方法,即通過已知的蛋白質(zhì)結(jié)構(gòu)編織氨基酸序列,尋找契合點(diǎn)。他們的表現(xiàn)還可以。“我們當(dāng)時很高興。......但之后就開始走下坡路了,”Jones笑著回憶道.“真的,挺很意思的。”

帕多瓦大學(xué)生物信息學(xué)教授Silvio Tosatto表示,當(dāng)時學(xué)界興致盎然。“大家覺得如果自己有能夠正確預(yù)測蛋白質(zhì)結(jié)構(gòu)的算法,就可以成為百萬富翁。還有一些人認(rèn)為諾貝爾獎已經(jīng)近在咫尺了。”

當(dāng)然,早年這些美夢都沒成真。當(dāng)被問及在此期間,CASP收到的分享報告質(zhì)量如何時,Moult停頓了一下,說道:“可以用參差不齊(Random)來形容。”

有些方法的效果比預(yù)期的要好,比如“同源建模(homology modeling)”,它通過比較已知蛋白質(zhì)的結(jié)構(gòu)來推導(dǎo)未知蛋白質(zhì)的結(jié)構(gòu)。還有些方法則一敗涂地。Moult說,大多數(shù)模型的預(yù)測結(jié)果都是“扭曲變形的”。

荷蘭癌癥研究所和烏特勒支大學(xué)的結(jié)構(gòu)生物學(xué)家Anastassis Perrakis開玩笑說:“我很喜歡看到他們失敗。”他曾將實(shí)驗(yàn)驗(yàn)證的蛋白質(zhì)結(jié)構(gòu)提供給CASP組織者作為比賽參考。“這不是較勁,我們只是喜歡就科學(xué)問題捉弄彼此。”

不過在這一過程中,也有一些人嶄露頭角。1996年,第二屆CASP結(jié)束后,一位名叫David Baker的年輕人邀請Jones共乘一輛出租車前往機(jī)常他聽過Jones的演講,正在研究自己的計算模型。雖然他還沒準(zhǔn)備好參加這次的CASP,但他想和Jones聊聊。于是,Jones在出租車上傾聽了他的想法,但沒想過會再見到他。

等到1998年,這位年輕人憑借自己的算法Rosetta驚艷全常Jones說,他當(dāng)時可謂是“一馬當(dāng)先”。

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

David Baker 現(xiàn)在是世界領(lǐng)先的蛋白質(zhì)設(shè)計專家之一,他憑借名為 Rosetta 的高性能算法,在CASP中成為了眾矢之的。。圖源:BBVA Foundation

Rosetta這樣的算法可以模擬氨基酸分子的原子間相互作用,從而預(yù)測它們將如何折疊。它們“表明你確實(shí)可以預(yù)測蛋白質(zhì)結(jié)構(gòu)。但它還不夠好,也不夠準(zhǔn)確,因此實(shí)用價值有限,”Baker評論道。

2008年,計算機(jī)的表現(xiàn)依然不如人類。Baker當(dāng)時正在華盛頓大學(xué)管理自己的實(shí)驗(yàn)室,他創(chuàng)建了一款名為Foldit的免費(fèi)在線游戲,玩家可以將一串串氨基酸折疊成蛋白質(zhì)結(jié)構(gòu)。他的團(tuán)隊(duì)在發(fā)表于《自然》期刊的一篇論文中報告說,人類玩家在蛋白質(zhì)建模方面的表現(xiàn)優(yōu)于Rosetta。

但人類的領(lǐng)先優(yōu)勢不會持續(xù)太久。2010年代初,科學(xué)家們在一個被稱為“協(xié)同進(jìn)化(co-evolution)”的概念上取得了重大突破,這推動了這一領(lǐng)域的發(fā)展,并為日后人工智能的發(fā)展打下了重要基石。這個概念其實(shí)已經(jīng)存在了幾十年,簡單明了的說就是:通過比較成百上千個蛋白質(zhì)中密切相關(guān)的氨基酸序列,科學(xué)家們可以識別出發(fā)生變異的氨基酸。更重要的是,可以確定它們是否與其他氨基酸同步發(fā)生變異。如果兩個氨基酸同時發(fā)生了變化,那么它們之間很可能存在某種聯(lián)系。伯克利實(shí)驗(yàn)室的結(jié)構(gòu)生物學(xué)Adams表示:“我們可以說,這兩個氨基酸也許在空間上很靠近。”

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

蛋白質(zhì)的協(xié)同進(jìn)化能夠揭示其結(jié)構(gòu)。圖源:Mark Belan

但直到2010年代初,這種預(yù)測哪些氨基酸會發(fā)生接觸的方法令人失望,準(zhǔn)確率徘徊在20% 到24%之間。隨后,科學(xué)家們注意到,他們的統(tǒng)計方法存在誤差,也就是說一些看似彼此接觸的氨基酸實(shí)際上并沒有任何接觸。后來,Moult了解到,幾十年來,統(tǒng)計學(xué)家一直對這種誤差的存在心知肚明。他說,回首往事,你會想“我當(dāng)初怎么這么笨?”

隨后,計算生物學(xué)家清理了統(tǒng)計工具。到了2016年,接觸預(yù)測的準(zhǔn)確率已經(jīng)飆升至47%。兩年后,準(zhǔn)確率達(dá)到了70%。Baker的算法之所以能取得成功還要?dú)w功于以下原因:2014年,Rosetta生成了兩個非常精確的蛋白質(zhì)結(jié)構(gòu),以至于CASP評審員認(rèn)為Baker可能已經(jīng)解決了蛋白質(zhì)折疊問題。

Adams表示,協(xié)同進(jìn)化的洞見“非常奇妙”。在不使用機(jī)器學(xué)習(xí)的情況下,協(xié)同進(jìn)化是“真正推動該領(lǐng)域發(fā)展的重大事件之一”。

然而,這項(xiàng)突破并沒能帶領(lǐng)該領(lǐng)域走得太遠(yuǎn)。協(xié)同進(jìn)化需要大量相似的蛋白質(zhì)進(jìn)行比較,而實(shí)驗(yàn)人員解析蛋白質(zhì)結(jié)構(gòu)的速度不足以滿足計算人員的需求。

談及這一切時,Moult引用了進(jìn)化生物學(xué)中的一個術(shù)語:歲月在間斷平衡(punctuated equilibrium)中流逝。有時,人們感覺好像十億年都沒有進(jìn)化出好的想法,但緊接著便有可能發(fā)生令人興奮的進(jìn)展。

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

問世

(1)倉促上陣

2016年,David Jones在《自然》期刊上發(fā)表的一篇新論文中瞥見了未來的景象。來自谷歌DeepMind(一個位于倫敦的人工智能團(tuán)隊(duì))的研究人員詳細(xì)介紹了他們的算法是如何利用一種被稱為深度學(xué)習(xí)的方法,在圍棋這項(xiàng)古老的棋盤游戲中擊敗人類冠軍的。

Jones大吃一驚。“大事即將發(fā)生,我真的要了解深度學(xué)習(xí)了,”他回憶道。

深度學(xué)習(xí)是一種受人類大腦啟發(fā)的人工智能技術(shù)。在你的大腦中,分子信息通過由神經(jīng)元這種腦細(xì)胞構(gòu)成的互通互聯(lián)網(wǎng)絡(luò)進(jìn)行傳輸。神經(jīng)元向外延伸的突起叫做樹突,可以捕捉鄰近神經(jīng)元派出的分子,這些分子會告訴接收神經(jīng)元,是否需要發(fā)射和傳播信號。

布朗大學(xué)計算機(jī)科學(xué)系的教授Michael Littman說:“如果該神經(jīng)元接受到了足夠多的活動分子,那么該神經(jīng)元就會被激活,從而發(fā)出信號。這將導(dǎo)致另一波分子被釋放到下一個神經(jīng)元。”

20世紀(jì)50年代,計算機(jī)科學(xué)家意識到,他們可以將電子比特連接起來,創(chuàng)建“神經(jīng)網(wǎng)絡(luò)”。神經(jīng)網(wǎng)絡(luò)中的每個單元都是一個節(jié)點(diǎn),研究人員將其比喻為神經(jīng)元:一個神經(jīng)元接收來自其他神經(jīng)元的信息,然后計算是否向下一個神經(jīng)元發(fā)射信息。在這樣的神經(jīng)網(wǎng)絡(luò)中,信息通過多層神經(jīng)元傳播,產(chǎn)生特定的結(jié)果,比如識別圖像中的狗等。

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

神經(jīng)網(wǎng)絡(luò)的工作原理。圖源:Mark Belan

神經(jīng)元的層數(shù)越多,能進(jìn)行的計算越復(fù)雜。但早期的神經(jīng)網(wǎng)絡(luò)一般只有兩層。到了20世紀(jì)90年代,神經(jīng)元層數(shù)增加到了三層,并在接下來20年間都未增加。Littman說:“我們不知道如何可靠地創(chuàng)建比這更深層的神經(jīng)網(wǎng)絡(luò)。”

自20世紀(jì)90年代以來,包括Jones和Moult在內(nèi)的結(jié)構(gòu)生物學(xué)家一直嘗試將神經(jīng)科學(xué)網(wǎng)絡(luò)運(yùn)用到蛋白質(zhì)科學(xué)中,但淺層網(wǎng)絡(luò)和稀疏數(shù)據(jù)的局限性讓他們止步不前。隨后時間來到20世紀(jì)10年代初,計算機(jī)科學(xué)家們學(xué)會了如何更好地構(gòu)建神經(jīng)網(wǎng)絡(luò),以便對更多層神經(jīng)元進(jìn)行穩(wěn)定的訓(xùn)練。神經(jīng)網(wǎng)絡(luò)的層數(shù)也逐漸從20層、50層、100層發(fā)展到數(shù)千層。Littman表示:“為了區(qū)別于我們在90年代的做法,人們開始稱之為‘深度學(xué)習(xí)’。要說機(jī)器學(xué)習(xí)領(lǐng)域的研究者們擅長什么,那可以說是創(chuàng)造一些酷炫的名詞了。”

深度學(xué)習(xí)改變了人工智能,使算法能夠出色地識別照片或聲音中的特征,并在游戲中擊敗了人類。

2016年3月,當(dāng)DeepMind聯(lián)合創(chuàng)始人Demis Hassabis在首爾見證其旗下的人工智能系統(tǒng)AlphaGo在歷史悠久的圍棋比賽中擊敗人類世界冠軍時,他回想起了自己在大學(xué)時玩Foldit的情景。他想知道,如果DeepMind的研究人員能寫出模仿圍棋大師直覺的算法,難道他們不能寫出模仿Foldit游戲玩家直覺的算法嗎?這樣的算法雖然不懂生物學(xué),卻知道如何折疊蛋白質(zhì)。

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

2016年,谷歌DeepMind的人工智能系統(tǒng)AlphaGo戰(zhàn)勝了世界圍棋冠軍李世石(右),其模仿人類直覺的能力引起了生物學(xué)家對深度學(xué)習(xí)在蛋白質(zhì)科學(xué)中潛力的關(guān)注。圖源:Google DeepMind

芝加哥豐田工業(yè)大學(xué)的教授許錦波(Jinbo Xu)也認(rèn)識到了利用深度學(xué)習(xí)解決蛋白質(zhì)折疊問題的潛力。他受到了神經(jīng)網(wǎng)絡(luò)在圖像識別方面所取得的成績的啟發(fā)。當(dāng)時,計算機(jī)科學(xué)家已經(jīng)在卷積網(wǎng)絡(luò)方面取得了巨大成功,卷積網(wǎng)絡(luò)利用深度學(xué)習(xí)算法將圖像分割成若干塊,并識別它們之間的模式。許教授將這一技術(shù)引入了蛋白質(zhì)折疊領(lǐng)域。他使用一種稱為矩陣的數(shù)學(xué)對象來表示哪些氨基酸在空間中彼此鄰近,然后將數(shù)據(jù)作為圖像輸入卷積網(wǎng)絡(luò)。該算法通過尋找這些圖像之間的模式來預(yù)測組成蛋白質(zhì)的原子的三維坐標(biāo)。

2016年,他在arxiv.org上發(fā)布了這項(xiàng)的預(yù)印*(后來發(fā)表在PLOS Computational Biology上),向人們展示了“深度學(xué)習(xí)的潛在應(yīng)用”。Moult表示:“這在當(dāng)時對蛋白質(zhì)折疊領(lǐng)域影響頗深。”

Wang, Sheng, et al. "Accurate de novo prediction of protein contact map by ultra-deep learning model."PLoS computational biology13.1 (2017): e1005324.

不久之后,蛋白質(zhì)結(jié)構(gòu)研究小組開始涉足深度學(xué)習(xí)。AlQuraishi和他的團(tuán)隊(duì)率先開發(fā)出了一種方法,可以完全通過神經(jīng)網(wǎng)絡(luò)直接預(yù)測蛋白質(zhì)結(jié)構(gòu),也就是所謂的“端到端”(end-to-end)方法,只是效果并不理想。其他人則是各顯神通,努力想要跟上這波科研的新浪潮。

Jones說:“我當(dāng)時并不清楚自己想用深度學(xué)習(xí)做什么,但我意識到我需要了解和運(yùn)用深度學(xué)習(xí)。”

在他已經(jīng)開始撰寫資助申請,自尋出路時,他收到了谷歌DeepMind的一封電子郵件。他們向Jones詢問了CASP競賽的情況,并表示愿意提供幫助。“我以為他們的意思是:我們可以提供強(qiáng)大的計算機(jī)能力,”瓊斯說道。

雙方見面之后,Jones發(fā)現(xiàn)谷歌的野心顯然不止于此。但要實(shí)現(xiàn)自己的雄心壯志,這家科技巨頭公司需要更多的科學(xué)人才。

(2)新秀入場

2016年,Jones開始擔(dān)任谷歌DeepMind的顧問,負(fù)責(zé)一個后來被稱為AlphaFold的項(xiàng)目;與此同時,John Jumper正在芝加哥大學(xué)完成他的理論化學(xué)博士學(xué)位。

少年時期,Jumper自學(xué)了計算機(jī)編程。他在物理方面也很有天賦。因此,到了選擇大學(xué)專業(yè)時,盡管他的父母都是工程師且擔(dān)心他找不到工作,但他還是決定學(xué)習(xí)數(shù)學(xué)和物理。

“我一直以為自己會成為一名研究‘宇宙法則’的物理學(xué)家,”Jumper說。“我一直熱愛探索宇宙真理的這一理念。”

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

作為一名本科生,John Jumper學(xué)習(xí)了物理和數(shù)學(xué),然后找到了一份創(chuàng)建蛋白質(zhì)計算機(jī)模擬的工作。這些經(jīng)歷使他能夠領(lǐng)導(dǎo)谷歌DeepMind 的AlphaFold項(xiàng)目。圖源:John Jumper

在范德比爾特大學(xué)讀本科時,他與費(fèi)米國家加速器實(shí)驗(yàn)室的研究人員合作,研究夸克(quarks)這種亞原子粒子的奇特屬性。一天,當(dāng)他和研究人員坐在一起吃午飯時,他得知了一個壞消息。“那么,我們正在進(jìn)行的這項(xiàng)實(shí)驗(yàn)什么時候才能啟動呢?”Jumper回憶自己曾這樣問他們。其中一位教授說,他可能退休前等不到了。另一位年紀(jì)稍長的教授說,他可能都活不到那一天。

“我希望自己做科研耗費(fèi)的時間比兩位教授說的短一點(diǎn),”Jumper說。在完成本科學(xué)業(yè)后,他參與了一個理論凝聚態(tài)物質(zhì)物理學(xué)的博士課程但很快就輟學(xué)了。他在D.E. Shaw研究公司找到了一份工作,這是一家紐約的公司,當(dāng)時正在進(jìn)行蛋白質(zhì)基本模擬的研究。通過了解蛋白質(zhì)如何運(yùn)動和變化,他們希望能更好地理解各種疾病的機(jī)制,例如肺癌。

這是Jumper第一次意識到自己工作的潛在重要性。“這關(guān)乎健康和延長人們的壽命,”他說。在接下來的三年里,Jumper在公司的超級計算機(jī)上對蛋白質(zhì)的運(yùn)動進(jìn)行了建模,這些超級計算機(jī)是專門為更快地模擬分子而建造的。“有時候,我在周二一天做的模擬比我整個博士期間要做的還多,”他說。

2011年,他決定再次嘗試讀研,這次是在芝加哥大學(xué)學(xué)習(xí)理論化學(xué)。他仍然對蛋白質(zhì)結(jié)構(gòu)和運(yùn)動感興趣。但他對學(xué)術(shù)界的緩慢進(jìn)展感到沮喪。“我再也無法使用我在D.E. Shaw公司用過的那種定制計算機(jī)硬件了,”Jumper說。他想知道是否可以使用人工智能(當(dāng)時被稱為統(tǒng)計物理)來實(shí)現(xiàn)快速模擬,而這通常需要先進(jìn)的機(jī)器。他開始涉足機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)。

在此期間,他也開始思考蛋白質(zhì)折疊問題。他覺得這個問題應(yīng)該可以用蛋白質(zhì)數(shù)據(jù)庫中的訓(xùn)練數(shù)據(jù)來解決到2012年,該數(shù)據(jù)庫已包含超過76,000種蛋白質(zhì)結(jié)構(gòu)。

Jumper說:“我當(dāng)時相信數(shù)據(jù)量已經(jīng)足夠多了,但是想法還不夠成熟。”

2017年,Jumper聽說谷歌DeepMind開始涉足蛋白質(zhì)結(jié)構(gòu)預(yù)測。他剛剛完成博士學(xué)位,讀博期間恰好主攻利用機(jī)器學(xué)習(xí)來模擬蛋白質(zhì)折疊和動態(tài)。于是,他申請了谷歌的研究科學(xué)家職位。

“這個項(xiàng)目當(dāng)時處于保密階段,”他說。如果他在面試中提到蛋白質(zhì)折疊,DeepMind團(tuán)隊(duì)就會轉(zhuǎn)移話題。“您轉(zhuǎn)移話題太多次的話,只會讓我更加確定貴公司在做什么。”Jumper說。

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

谷歌 DeepMind 總部位于倫敦。圖源:Buildington

2017年10月,他來到了DeepMind位于倫敦的辦公室。在顧問Jones的幫助下,團(tuán)隊(duì)已經(jīng)開始深入開發(fā)AlphaFold。“那會兒真的太有意思了,我們不斷提出各種想法,”Jones說。“最終會有一個比較好的核心想法脫穎而出,然后他們便開始全力推進(jìn)。”

為了訓(xùn)練算法,DeepMind團(tuán)隊(duì)使用了超過140,000個來自蛋白質(zhì)數(shù)據(jù)庫的蛋白質(zhì)結(jié)構(gòu)。他們將這些信息輸入到一個卷積網(wǎng)絡(luò)中,但并沒有對AI架構(gòu)本身進(jìn)行太多改動。“這是‘標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)’,”Jumper說道。

到了2018年春季,AlphaFold準(zhǔn)備參加CASP,與“正統(tǒng)的”蛋白質(zhì)科學(xué)家們同臺競技。“有點(diǎn)像一級方程式賽車,”Jones回憶道。“你認(rèn)為自己建造了最好的賽車,但你不知道其他車隊(duì)的實(shí)力如何。”由于風(fēng)險很高,DeepMind團(tuán)隊(duì)討論是否應(yīng)匿名參賽,因?yàn)樗麄儾幌氡划?dāng)眾羞辱。

Jones說:“沒有人想失敗。”在學(xué)術(shù)界,失敗是工作的一部分;你失敗了,只能繼續(xù)前行,因?yàn)槟銊e無選擇。“但如果是一家價值數(shù)十億美元的科技公司,那么失敗的嘗試顯然會很讓公司看著狼狽。”

他們最終決定以谷歌DeepMind的名義提交參賽成果。在12月會議開始前幾個月,Jones收到了CASP組織方的回復(fù),他們建議DeepMind團(tuán)隊(duì)線下參加會議,因?yàn)锳lphaFold表現(xiàn)非常出色。

雖然他們在預(yù)測蛋白質(zhì)結(jié)構(gòu)方面的準(zhǔn)確性大約是第二名的2.5倍,但并非絕對碾壓。不過,他們的凱旋依舊給人留下了深刻印象。“顯然,有趣的事情正在上演,”Moult說道。

(3)重啟算法

這次勝利對DeepMind團(tuán)隊(duì)來說本應(yīng)是一針強(qiáng)心劑,但他們知道自己離真的解決蛋白質(zhì)折疊問題還相距甚遠(yuǎn)。幾個月前,Hassabis將團(tuán)隊(duì)成員召集在一起。“我們的目標(biāo)是否是真正解決這個問題?”Jumper回憶起他當(dāng)時說的話。“如果這不是我們的目標(biāo),那我們就著手解決能夠真正產(chǎn)生巨大影響的問題。”

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

John Jumper懷疑生物學(xué)家已經(jīng)研究了足夠的蛋白質(zhì)結(jié)構(gòu)來解決蛋白質(zhì)折疊問題。 2017年開始在谷歌DeepMind工作的Jumper 說:“我相信數(shù)據(jù)已經(jīng)足夠了。”但“想法還不夠”。圖源:Google DeepMind

憑借在物理學(xué)、化學(xué)、生物學(xué)和計算領(lǐng)域的多重背景,Jumper在頭腦風(fēng)暴會議上分享了獨(dú)到的見解。很快,他開始領(lǐng)導(dǎo)這個從六人擴(kuò)展到十五人的團(tuán)隊(duì)。“他們在做一件很特別的事情,”Raphael Townshend評價道。2019年,他曾在谷歌DeepMind實(shí)習(xí),后來自己成立了AI驅(qū)動的生物技術(shù)公司Atomic AI。

在學(xué)術(shù)界,專家們經(jīng)常各自為政,負(fù)責(zé)獨(dú)立的項(xiàng)目,很少有合作。而在DeepMind,統(tǒng)計學(xué)、結(jié)構(gòu)生物學(xué)、計算化學(xué)、軟件工程等領(lǐng)域的專家們協(xié)同合作,共同解決蛋白質(zhì)折疊問題。他們還擁有谷歌強(qiáng)大的財政和計算資源支持。“作為博士生,我可能要花幾個月的時間才能完成的事情,在這里一天內(nèi)就能完成,”Townshend說。

他說,倫敦DeepMind辦公室氛圍活躍,而這種活力很大程度上歸功于Jumper。“我覺得他是一個真正的天才,同時也是一個非常謙遜的人,團(tuán)隊(duì)成員都非常喜歡他。”計算機(jī)科學(xué)家Ellen Zhong這樣評價道。2021年,她曾在DeepMind實(shí)習(xí),現(xiàn)任普林斯頓大學(xué)的助理教授。

在Jumper的領(lǐng)導(dǎo)下,團(tuán)隊(duì)對AlphaFold進(jìn)行了重構(gòu)。他們設(shè)計了一種新型的Transformer架構(gòu)這是一種深度學(xué)習(xí)技術(shù),“在過去五年中推動了幾乎每一次機(jī)器學(xué)習(xí)領(lǐng)域的突破,”Townshend說道。神經(jīng)網(wǎng)絡(luò)通過調(diào)整神經(jīng)元連接的強(qiáng)度來創(chuàng)建更精確的數(shù)據(jù)表征,主要是關(guān)于蛋白質(zhì)進(jìn)化和結(jié)構(gòu)的數(shù)據(jù)。它通過第二個Transformer架構(gòu)運(yùn)行這些數(shù)據(jù),以預(yù)測蛋白質(zhì)的三維結(jié)構(gòu)。然后,該算法會將預(yù)測所得的3D結(jié)構(gòu)與修訂后的數(shù)據(jù)結(jié)合起來,返回到Transformer架構(gòu)中運(yùn)行數(shù)次,以達(dá)到提高蛋白質(zhì)3D結(jié)構(gòu)預(yù)測準(zhǔn)確性的效果。

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

變革性的架構(gòu)

當(dāng)他們剛開始研發(fā)AlphaFold2時,他們的算法“很糟糕,但沒有我們預(yù)期的那么糟糕,”Jumper說。“(它)輸出了一些看起來有點(diǎn)像蛋白質(zhì)的螺旋結(jié)構(gòu)。”但隨著對算法的進(jìn)一步優(yōu)化,他們注意到預(yù)測的效率和準(zhǔn)確性大幅提升。

“這實(shí)際上讓人感到害怕,”Jumper說。如果它表現(xiàn)得太好,通常意味著“你做錯了一些事情。”但檢查過后,他們沒有發(fā)現(xiàn)問題,優(yōu)化后的算法就是有效。

團(tuán)隊(duì)決定進(jìn)行一次內(nèi)部實(shí)驗(yàn),檢驗(yàn)他們的系統(tǒng)是否對生物學(xué)家有幫助。他們識別出大約50篇發(fā)表在《科學(xué)》、《自然》和《細(xì)胞》等頂級期刊上的論文,這些論文不僅描述了新的蛋白質(zhì)結(jié)構(gòu),還基于結(jié)構(gòu)分享了有關(guān)蛋白質(zhì)功能的深刻見解。他們想看看AlphaFold2的效果能否與實(shí)驗(yàn)人員費(fèi)時費(fèi)力的實(shí)驗(yàn)方法相媲美。

他們輸入了氨基酸序列,然后開啟了AlphaFold2的預(yù)測引擎。對于每個輸入的序列,AlphaFold2預(yù)測出的蛋白質(zhì)結(jié)構(gòu)都接近論文中實(shí)驗(yàn)所得的結(jié)果。然而,在團(tuán)隊(duì)看來,這還不夠準(zhǔn)確。這些結(jié)構(gòu)缺少實(shí)驗(yàn)人員發(fā)現(xiàn)的關(guān)鍵細(xì)節(jié)。“你感覺好像已經(jīng)跑完了比賽,卻發(fā)現(xiàn)其實(shí)只完成了一半,”Jumper說道。

接下來的六個月里,團(tuán)隊(duì)一點(diǎn)一點(diǎn)的改進(jìn)系統(tǒng)。距離2020年CASP競賽的蛋白質(zhì)候選名單發(fā)布還有幾周時,他們進(jìn)行了另一次有用性測試。Jumper對這次測試結(jié)果感到滿意。于是,谷歌DeepMind在2020年春季向CASP提交了他們的預(yù)測效果,然后等待評估結(jié)果。

(4)學(xué)科大地震

初夏時節(jié),Moult收到了一位CASP評估人員發(fā)給他的電子郵件:“看看這個,相當(dāng)令人印象深刻。”郵件附上了由谷歌DeepMind團(tuán)隊(duì)提出的蛋白質(zhì)結(jié)構(gòu)預(yù)測解決方案。Moult確實(shí)被震撼到了,但他認(rèn)為這是單一案例,不可復(fù)現(xiàn)。

然后他收到了另一封郵件,然后又一封郵件。“奇怪了,”他回憶自己當(dāng)時的感受。他收到了三個,四個,許多個接近完美的蛋白質(zhì)預(yù)測結(jié)果而且全部來自DeepMind團(tuán)隊(duì)。到了夏末,“我們迅速意識到……發(fā)生了非常非常不同尋常的事情,”Moult說道。

CASP的評估人員通過比較預(yù)測的蛋白質(zhì)結(jié)構(gòu)與其經(jīng)過驗(yàn)證的實(shí)驗(yàn)結(jié)構(gòu)來評分。如果模型預(yù)測和實(shí)驗(yàn)結(jié)果一一對應(yīng),十分完美,那么得分是100分。Moult一直認(rèn)為,90以上的分?jǐn)?shù)表明算法有效地解決了蛋白質(zhì)的結(jié)構(gòu)。AlphaFold的大多數(shù)預(yù)測結(jié)果都達(dá)到或超過了90分。

會議前幾個月,Moult通過電話將這個消息分享給了Jumper。“我(興奮地)當(dāng)場大聲咒罵,”Jumper回憶道。“我妻子還關(guān)心地問我還好嗎。”

2020年12月,在新冠疫情爆發(fā)不到一年的時間里,Jumper在CASP在線會議上通過Zoom展示了AlphaFold2。

像其他與會者一樣,Jones也在家中觀看。“我當(dāng)時就呆住了……看著眼前發(fā)生的一切,”他說。“因?yàn)橥虏辉谏磉?hellip;…我們都被封鎖在家,無法分享這一切。”

對于任何不是神經(jīng)網(wǎng)絡(luò)專家的人來說,這些想法很復(fù)雜。即便如此,結(jié)論卻很明確。DeepMind已經(jīng)解決了蛋白質(zhì)折疊問題中的結(jié)構(gòu)預(yù)測部分。AlphaFold2能夠基于氨基酸序列準(zhǔn)確預(yù)測蛋白質(zhì)的結(jié)構(gòu)。

“啊,我的最愛研究課題走到了盡頭,”Jones回憶道。“DeepMind終結(jié)了比賽,這就是結(jié)局。”

多年來,Anastassis Perrakis一直為CASP競賽貢獻(xiàn)未發(fā)表的實(shí)驗(yàn)結(jié)果。當(dāng)他看到AlphaFold2準(zhǔn)確預(yù)測出他的團(tuán)隊(duì)煞費(fèi)苦心解析出的蛋白質(zhì)結(jié)構(gòu)時,他感到心里咯噔一下。

雖然疫情被獨(dú)自困在家里時,但科學(xué)家們一致認(rèn)為蛋白質(zhì)科學(xué)的世界已經(jīng)發(fā)生了永久性的改變。當(dāng)這個世界的“居民”眺望眼前的新景色時,他們不由得問出了同一個問題:接下來該怎么辦?

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

余波

(1)驚訝之余,敬畏之心

結(jié)構(gòu)生物學(xué)突然失去結(jié)構(gòu)性了。

Silvio Tosatto從CASP創(chuàng)立早期就開始參與相關(guān)賽事了,他說,剛開始的時候,很多人陷入了深思。一些結(jié)構(gòu)生物學(xué)家擔(dān)心他們的工作將不復(fù)存在,另一些則產(chǎn)生了抵觸心理,聲稱AlphaFold2不夠準(zhǔn)確。

有些計算生物學(xué)家已經(jīng)為解決蛋白質(zhì)折疊問題付出了數(shù)十年的心血,但當(dāng)這一刻真的到來時,他們的感受是苦樂參半的。在CASP結(jié)束之后的一篇博客文章中,AlQuraishi引用了一位與會者的話,形容自己感覺像是孩子第一次走出家門的父母。

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

哥倫比亞大學(xué)數(shù)學(xué)基因組學(xué)項(xiàng)目的系統(tǒng)生物學(xué)家 Mohammed AlQuraishi 希望,到2040年,深度學(xué)習(xí)能夠模擬整個細(xì)胞及其內(nèi)部的所有結(jié)構(gòu)和動態(tài)。圖源:Nicole Pereira

但是,即便對這個耀眼的新工具感到惴惴不安,許多科學(xué)家還是非常興奮。那些不進(jìn)行結(jié)構(gòu)研究的人過去必須與結(jié)構(gòu)生物學(xué)家合作來確定蛋白質(zhì)結(jié)構(gòu),現(xiàn)在他們只需按幾個按鈕就可以自己得出蛋白質(zhì)的結(jié)構(gòu)。

媒體口中的AlphaFold2成為了“改變一切”的新人工智能突破。但是,科學(xué)家們花了數(shù)月甚至數(shù)年來剖析AlphaFold2的優(yōu)缺點(diǎn)。Jumper演講約六個月后,谷歌DeepMind正式發(fā)布了這款產(chǎn)品并分享了AlphaFold2的底層代碼。“AlphaFold2發(fā)布的第二天,我們就嘗試將它安裝到我們的GPU服務(wù)器上了,”Perrakis表示。生物學(xué)家們開始了探索。

“我原以為(AlphaFold2)會失敗,”Thornton說。“但實(shí)際上它卻取得了巨大的成功。”

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

荷蘭癌癥研究所和烏特勒支大學(xué)的結(jié)構(gòu)生物學(xué)家Anastassis Perrakis開玩笑說:“我很喜歡看到他們失敗。”他曾將實(shí)驗(yàn)驗(yàn)證的蛋白質(zhì)結(jié)構(gòu)提供給CASP組織者作為比賽參考。“這不是較勁,我們只是喜歡就科學(xué)問題捉弄彼此。”圖源:Anastassis Perrakis

Anastassis Perrakis向CASP貢獻(xiàn)了實(shí)驗(yàn)蛋白質(zhì)結(jié)構(gòu),計算生物學(xué)家在其上測試了他們的方法。“我很高興看到[這些方法]失敗,”他開玩笑說。 “這不是競爭,但我們喜歡在科學(xué)上互相取笑。”

科學(xué)家們逐漸意識到,AlphaFold2可能并不會威脅到他們的工作,而是加速研究的催化劑。它不僅沒有使結(jié)構(gòu)生物學(xué)家失業(yè),反而為他們提供了一種新的工具,使他們的工作更加出色。“如果你認(rèn)為結(jié)構(gòu)生物學(xué)家只是技術(shù)專家,他們的工作僅僅是弄清蛋白質(zhì)的結(jié)構(gòu),那么他們當(dāng)然會失業(yè),”Walden說道。但這就像說因?yàn)橛辛巳祟惢蚪M計劃,基因組學(xué)家不能再發(fā)表描述單個基因序列的論文,所以他們會失業(yè)一樣。

在許多情況下,結(jié)構(gòu)生物學(xué)家的目標(biāo)其實(shí)是探索蛋白質(zhì)的功能。有了AlphaFold2,他們可以在幾分鐘內(nèi)提出假設(shè),而不是等待數(shù)月甚至數(shù)年來通過實(shí)驗(yàn)弄清蛋白質(zhì)的結(jié)構(gòu)。

Adams認(rèn)為:“這給結(jié)構(gòu)生物學(xué)帶來了許多有益的改變,而非壞處,讓這個領(lǐng)域更加令人興奮。”

然而,它并沒有立即像一些人預(yù)測的那樣加速各種新藥的研發(fā),因?yàn)檠芯咳藛T很快發(fā)現(xiàn)這個工具也有其局限性。Perrakis表示,AlphaFold2的預(yù)測并不完美,需要實(shí)驗(yàn)驗(yàn)證,但“你可以更快地進(jìn)入實(shí)際的結(jié)構(gòu)研究”。現(xiàn)在,當(dāng)他的學(xué)生開始一個新項(xiàng)目時,他們會首先使用AlphaFold2預(yù)測特定蛋白質(zhì)的結(jié)構(gòu),然后進(jìn)行實(shí)驗(yàn)驗(yàn)證。

Perrakis認(rèn)為自己和其他研究人員可能仍會在某些情況下用到X射線晶體學(xué)。但是,為了初步構(gòu)建蛋白質(zhì)結(jié)構(gòu),許多人開始將深度學(xué)習(xí)預(yù)測與先進(jìn)的電子顯微鏡技術(shù)如冷凍電鏡(cryo-EM)相結(jié)合,這項(xiàng)技術(shù)的核心是快速冷凍生物樣本并用電子轟擊它們。解析了結(jié)構(gòu)之后,他們便可以著手研究蛋白質(zhì)的功能問題。AlQuraishi表示,AlphaFold2的出現(xiàn)加速了冷凍電鏡的應(yīng)用。

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

冷凍電鏡(Cryo-EM)的工作原理。

這種轉(zhuǎn)變已經(jīng)開始。2022年6月,《科學(xué)》雜志的一期特刊揭示了人類核孔復(fù)合體的近原子結(jié)構(gòu)。這個由30種不同蛋白質(zhì)構(gòu)成的龐大而復(fù)雜的結(jié)構(gòu)幾十年來一直是生物學(xué)上的難題。科學(xué)家們使用AlphaFold2的預(yù)測結(jié)果來彌補(bǔ)冷凍電鏡未能解決的蛋白質(zhì)結(jié)構(gòu)問題。

Jumper表示,看到這篇論文中的其他科學(xué)家使用AlphaFold2取得了生物學(xué)上的突破,他在那一刻意識到“(AlphaFold)確實(shí)非常、非常重要”。

在過去三年里,像核孔復(fù)合體這樣的突破標(biāo)志著蛋白質(zhì)科學(xué)領(lǐng)域的一個又一個里程碑。迄今為止,AlphaFold2預(yù)測的蛋白質(zhì)結(jié)構(gòu)已被用于研究疾病和開發(fā)新的藥物輸送工具。“對我們來說,這非常有幫助,”博德研究所的分子生物學(xué)家Feng Zhang表示。他使用AlphaFold2設(shè)計了一種將藥物輸送到人體細(xì)胞內(nèi)的分子注射器。了解蛋白質(zhì)的結(jié)構(gòu)還可以輔助藥物開發(fā),例如,它能幫助研究人員判斷哪些分子能夠附著在蛋白質(zhì)結(jié)構(gòu)上,并改變其行為。盡管有些研究表明,AlphaFold2的預(yù)測結(jié)果在藥物研發(fā)領(lǐng)域不如實(shí)驗(yàn)所得有用,但也有研究證明它可以發(fā)揮相同的作用。人們還在探索人工智能工具對藥物開發(fā)的綜合影響。

另一方面,一些生物學(xué)家已經(jīng)不滿足于AlphaFold2在識別已知蛋白質(zhì)結(jié)構(gòu)和功能方面的應(yīng)用,轉(zhuǎn)向設(shè)計自然界中不存在的蛋白質(zhì),這種技術(shù)對創(chuàng)新藥物研發(fā)來說十分關(guān)鍵。

(2)新前沿

看到Jumper在2020年CASP會議上的演講后,Baker立刻回到了他的Rosetta算法的工作上。當(dāng)時谷歌尚未分享AlphaFold2的底層源代碼。盡管如此,“我們開始嘗試他們分享的一些想法,”Baker說。谷歌DeepMind團(tuán)隊(duì)在《自然》期刊上發(fā)表AlphaFold2的當(dāng)天,Baker和他的團(tuán)隊(duì)宣布了RoseTTAFold,這是一種與準(zhǔn)確度能與AlphaFold媲美的預(yù)測模型。RoseTTAFold同樣使用深度學(xué)習(xí)來預(yù)測蛋白質(zhì)結(jié)構(gòu),但其底層架構(gòu)與AlphaFold2大相徑庭。

Tosatto表示:“科學(xué)理念一旦被提出,其他人就可以逆向工程并在此基礎(chǔ)上進(jìn)行構(gòu)建,至少那些有足夠多資源的人可以做到。”

RoseTTAFold并不是AlphaFold唯一的競爭者。Meta也開發(fā)了自己的算法來解決蛋白質(zhì)結(jié)構(gòu)預(yù)測或相關(guān)問題。一些公司,已經(jīng)不局限于蛋白質(zhì)領(lǐng)域,而是使用深度學(xué)習(xí)來解析RNA結(jié)構(gòu),這其中就有Townshend的生物科技初創(chuàng)公司Atomic AI,。然而,在單一結(jié)構(gòu)預(yù)測領(lǐng)域,迄今為止還沒有人能夠達(dá)到AlphaFold的精確度,Thornton表示:“我相信有些公司也可以做到,但我認(rèn)為很難再現(xiàn)AlphaFold當(dāng)初帶來的震撼。”

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

去年, David Baker(如圖)與John Jumper和Demis Hassabi因其在使用人工智能研究和設(shè)計蛋白質(zhì)方面的革命性工作,共同獲得了生物學(xué)和生物醫(yī)學(xué)領(lǐng)域的知識前沿獎。圖源:BBVA Foundation

至少對外而言,Baker和Jumper繼續(xù)延續(xù)著CASP的良性競爭傳統(tǒng)。“他們可能覺得我在與他們競爭,但我覺得我們只是從他們的工作中獲取靈感,”Baker說道。

Jumper對此表示歡迎,他說:“大家共同推動這門科學(xué)的發(fā)展真的很重要。如果AlphaFold的智慧結(jié)晶后繼無人,我覺得是件很悲哀的事情。”

Baker已經(jīng)扛起了這份傳承的重任,并在嘗試將之運(yùn)用到蛋白質(zhì)科學(xué)的新前沿中:蛋白質(zhì)設(shè)計。由于生物學(xué)家現(xiàn)在只能研究自然界已經(jīng)存在的蛋白質(zhì),所以Baker設(shè)想了一門科學(xué),能夠設(shè)計出新的蛋白質(zhì),專門用來控制陽光、分解塑料或研發(fā)新藥或疫苗。

荷蘭胡布勒支研究所的結(jié)構(gòu)生物學(xué)家Danny Sahtoe曾在Baker指導(dǎo)下做博士后研究,他表示:“目前自然界中不同類型的蛋白質(zhì)結(jié)構(gòu)或形狀的數(shù)量是相當(dāng)有限的。理論上,應(yīng)該有更多可能的形狀,而如果你能生成更多形狀的蛋白質(zhì),那么就意味著你能擁有更多不同功能的蛋白質(zhì)。”

作為華盛頓大學(xué)蛋白質(zhì)設(shè)計研究所的主任,Baker認(rèn)為蛋白質(zhì)設(shè)計本質(zhì)上是“逆蛋白質(zhì)折疊問題”。與其將氨基酸序列輸入深度學(xué)習(xí)算法并讓它輸出蛋白質(zhì)結(jié)構(gòu),蛋白質(zhì)設(shè)計者應(yīng)該做的是將一個結(jié)構(gòu)輸入算法并讓它輸出一個序列,然后利用這個序列在實(shí)驗(yàn)室里生成蛋白質(zhì)。

AlphaFold和RoseTTAFold本身不能輸出這些序列,它們的編程邏輯是相反的。但Baker創(chuàng)建了RoseTTAFold的設(shè)計專用迭代版,基于其神經(jīng)架構(gòu),被稱為RoseTTAFold diffusion或RF diffusion。

Sahtoe說,蛋白質(zhì)設(shè)計由來已久,但深度學(xué)習(xí)加速了這一領(lǐng)域的發(fā)展,讓設(shè)計符合現(xiàn)實(shí)的蛋白質(zhì)計算機(jī)模型變得“極其快速”。以前,接受過專業(yè)培訓(xùn)的蛋白質(zhì)設(shè)計師需要幾周或幾個月的時間來創(chuàng)建新蛋白質(zhì)的骨架,但現(xiàn)在他們可以在幾天內(nèi),甚至一夜之間完成。

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

Foldit是由Baker實(shí)驗(yàn)室開發(fā)的在線游戲,玩家可以借此預(yù)測蛋白質(zhì)結(jié)構(gòu)。

Baker還更新了Foldit,將蛋白質(zhì)設(shè)計融入其中。玩家不僅可以構(gòu)建蛋白質(zhì)結(jié)構(gòu),還可以動手設(shè)計蛋白質(zhì)。這個改變頗具成效,Baker的實(shí)驗(yàn)室已經(jīng)發(fā)表了幾篇關(guān)于玩家設(shè)計的蛋白質(zhì)的論文。Baker在華盛頓大學(xué)的同事指導(dǎo)的一名研究生就是世界上最頂尖的Foldit玩家之一。

“我們真的理解蛋白質(zhì)折疊嗎?如果我們能夠設(shè)計出新的序列,并使其折疊成新的結(jié)構(gòu),那么這表明我們對蛋白質(zhì)折疊有著相當(dāng)豐富的了解,”Baker說。“從某種意義上說,這也可以被視為蛋白質(zhì)折疊問題的解決方案。”

(3)信任練習(xí)

AlphaFold2的成功無疑改變了生物學(xué)家對人工智能的態(tài)度。長期以來,許多實(shí)驗(yàn)生物學(xué)家不信任計算方法,因?yàn)樗麄冎滥承C(jī)器學(xué)習(xí)方法可以使數(shù)據(jù)看起來比實(shí)際更好。但是,谷歌DeepMind團(tuán)隊(duì)“明確地證明了你可以把它用在嚴(yán)肅的科研工作中,”AlQuraishi說道。現(xiàn)在如果還有人對此持懷疑態(tài)度,其他人便會反駁道:“好吧,那你怎么看AlphaFold呢?”

推動了卷積網(wǎng)絡(luò)發(fā)展的計算生物學(xué)家許錦波說:“現(xiàn)在生物學(xué)家相信我們的預(yù)測結(jié)果了,他們以前總是懷疑我們的預(yù)測是否可靠。”

這種信任部分源于AlphaFold2平臺的一個特性:它不僅生成蛋白質(zhì)的3D模型,還按照從0到100的信心等級對結(jié)構(gòu)的不同部分進(jìn)行評分,以此來自我評估預(yù)測的準(zhǔn)確性。

2022年7月,在谷歌DeepMind發(fā)布2180萬種蛋白質(zhì)的結(jié)構(gòu)預(yù)測后(幾乎涵蓋了已知的所有蛋白質(zhì))Adams決定分析AlphaFold2的自我報告。他將預(yù)測結(jié)果與這些蛋白質(zhì)的已解結(jié)構(gòu)進(jìn)行比較,并獨(dú)立評估其準(zhǔn)確性。

“好消息是,當(dāng)AlphaFold認(rèn)為自己是正確的時候,它往往確實(shí)是對的,”Adams說道。“當(dāng)它認(rèn)為自己不對時,現(xiàn)實(shí)情況往往也是如此。”但是,在大約10%的情況下,當(dāng)AlphaFold2對其預(yù)測“非常自信”(信心等級得分至少90分)時,其預(yù)測結(jié)果其實(shí)與實(shí)驗(yàn)所得有出入,所以它自信過頭了。

AI系統(tǒng)似乎有某種自我懷疑的能力,可能會導(dǎo)致人們過度依賴其結(jié)論。大多數(shù)生物學(xué)家僅僅將AlphaFold2視為一種預(yù)測工具,但有些人步子邁得太大了。一些以前與結(jié)構(gòu)生物學(xué)家合作的細(xì)胞生物學(xué)家和生物化學(xué)家已經(jīng)用AlphaFold2完全取代了結(jié)構(gòu)生物學(xué)家,并將其預(yù)測結(jié)果奉為圭臬。Perrakis說,有時科學(xué)家發(fā)表的論文中包含的蛋白質(zhì)結(jié)構(gòu)在任何結(jié)構(gòu)生物學(xué)家看來都顯然是錯誤的。“而他們卻說:‘這可是AlphaFold預(yù)測的結(jié)果。’”

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

在美國國立衛(wèi)生研究院,Lauren Porter研究了可以改變構(gòu)象的蛋白質(zhì),稱為折疊轉(zhuǎn)換蛋白質(zhì)。他們“挑戰(zhàn)了序列編碼一種結(jié)構(gòu)的范式,”她說,“因?yàn)轱@然它們不編碼一種結(jié)構(gòu)。”圖源:Lauren Porter

“有些人對這些深度學(xué)習(xí)模型的能力過于自信,實(shí)在太過自信了,”美國國立衛(wèi)生研究院的研究員Lauren Porter這樣認(rèn)為。“我們應(yīng)該盡可能多地使用這些深度學(xué)習(xí)模型,但我們也需要以謹(jǐn)慎和謙遜的態(tài)度對待它們。”

Jones聽說有科學(xué)家想通過計算方法確定蛋白質(zhì)結(jié)構(gòu),但在申請資金時卻遇到了困難。Jones說:“普遍的看法是DeepMind已經(jīng)做到了,為什么你還要繼續(xù)做?”但他認(rèn)為這項(xiàng)工作仍有必要繼續(xù)下去,因?yàn)锳lphaFold2并非完美無缺。

他表示:“(AlphaFold2)與實(shí)際科研要求還存在非常大的差距,有些事情它顯然無法做到。”

雖然AlphaFold2在預(yù)測小而簡單的蛋白質(zhì)結(jié)構(gòu)方面表現(xiàn)出色,但在預(yù)測包含多個部分的蛋白質(zhì)時其準(zhǔn)確性較低。它也無法兼顧蛋白質(zhì)的環(huán)境或與其他分子的結(jié)合,而這些因素會在自然狀態(tài)下改變蛋白質(zhì)的結(jié)構(gòu)。有時,蛋白質(zhì)需要被某些離子、鹽類物質(zhì)或金屬類物質(zhì)包圍才能正確折疊。

Walden說:“目前,AlphaFold還無法確定蛋白質(zhì)所處的環(huán)境。”她的小組已經(jīng)通過實(shí)驗(yàn)確定了幾種AlphaFold2無法預(yù)測的結(jié)構(gòu)。

AlphaFold2對集中動態(tài)蛋白質(zhì)的預(yù)測結(jié)果也不是很好,這些蛋白質(zhì)的功能也非常重要。有些蛋白質(zhì)的形狀會發(fā)生改變,因此被稱為折疊轉(zhuǎn)換蛋白質(zhì)(fold-switching protein)。此類蛋白質(zhì)不是靜態(tài)的,它們的形狀隨著與其他分子的相互作用而發(fā)生變化。有些即使具有相同的氨基酸序列,也會折疊成截然不同的形狀。Porter認(rèn)為,折疊轉(zhuǎn)換蛋白質(zhì)“反駁了序列編碼單一結(jié)構(gòu)的傳統(tǒng)觀點(diǎn),因?yàn)檫@顯然與現(xiàn)實(shí)不符”。

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

此處所示的 RfaH 等折疊轉(zhuǎn)換蛋白能夠改變構(gòu)型以執(zhí)行不同的任務(wù)。當(dāng)處于α螺旋形態(tài)時,RfaH蛋白無法與其目標(biāo)結(jié)合但當(dāng)其轉(zhuǎn)變?yōu)?beta;-折疊時,就能進(jìn)行結(jié)合。圖源:Lauren Porter

與DeepMind算法訓(xùn)練用到的數(shù)十萬種靜態(tài)單一結(jié)構(gòu)蛋白質(zhì)相比,折疊轉(zhuǎn)換蛋白質(zhì)只有大約100個,當(dāng)然肯定還有更多尚未被發(fā)現(xiàn)。Porter說,其實(shí)這可能也不是很出人意料,因?yàn)?ldquo;一般來說,這些算法就是為了預(yù)測單一折疊而設(shè)計的”。

還有一些內(nèi)在無序蛋白質(zhì)或蛋白質(zhì)區(qū)域缺乏穩(wěn)定結(jié)構(gòu),就像是汽車經(jīng)銷商門口擺來擺去的充氣玩偶,總是在不停的扭動、重組。“它們在很多方面被忽視了,因?yàn)樗鼈冇悬c(diǎn)煩人,”哥本哈根大學(xué)計算蛋白質(zhì)生物物理學(xué)教授Kresten Lindorff-Larsen說道。大約44%的人類蛋白質(zhì)存在至少一個由30個氨基酸組成的無序區(qū)域。Lindorff-Larsen表示:“這是一個相對較大的比例。”

AlphaFold2可以預(yù)測某些區(qū)域何時會內(nèi)在無序的情況,但它無法告訴你這種無序的具體形態(tài)。

對于Jumper來說,最令他失望的是AlphaFold2無法區(qū)分兩個僅相差一個氨基酸的蛋白質(zhì),也被稱為點(diǎn)突變(point mutation)。他說,點(diǎn)突變有時會對蛋白質(zhì)的結(jié)構(gòu)和功能產(chǎn)生相當(dāng)顯著的影響,但“AlphaFold卻對它們幾乎視而不見,”基于兩段不同的序列生成相同結(jié)構(gòu)預(yù)測。

2023年9月,DeepMind發(fā)布了AlphaMissense,這是一種預(yù)測此類突變影響的深度學(xué)習(xí)算法。它不能顯示結(jié)構(gòu)的變化,但它可以根據(jù)已知病原蛋白中的類似突變,告知用戶該突變是否可能使蛋白質(zhì)致病或誘發(fā)功能障礙。

然而,即使AlphaFold2能夠完美預(yù)測所有蛋白質(zhì),它也離模擬現(xiàn)實(shí)中的生物原理相距甚遠(yuǎn)。因?yàn)樵诩?xì)胞中,蛋白質(zhì)從不單獨(dú)行動。

(4)細(xì)胞復(fù)雜性

細(xì)胞內(nèi)部復(fù)雜且混亂。細(xì)胞的外膜包裹著一個擁擠的生化環(huán)境,其中充滿了各種分子成分蛋白質(zhì)、信號分子、信使RNA、細(xì)胞器等。蛋白質(zhì)相互結(jié)合并與其他分子結(jié)合,這改變了它們的形式和功能。

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

蛋白質(zhì)并不是單獨(dú)起作用的:它們不斷與其他分子相互作用。創(chuàng)作者Gael McGill寫道,這幅細(xì)胞圖是由真實(shí)蛋白質(zhì)和其他分子的模型組成的,“目的是為了展現(xiàn)細(xì)胞分子‘編排’的復(fù)雜性和藝術(shù)性。”圖源:Evan Ingersoll和Gal McGill, PhD/Digizyme Inc.

AlphaFold2預(yù)測單個蛋白質(zhì)結(jié)構(gòu)的能力并沒有幫助生物學(xué)家更好理解復(fù)雜天然環(huán)境中的蛋白質(zhì)。但是,這正是該領(lǐng)域目前正在前進(jìn)的方向。蛋白質(zhì)科學(xué)領(lǐng)域的人工智能巨頭谷歌DeepMind和David Baker的蛋白質(zhì)設(shè)計研究所,都在優(yōu)化它們的深度學(xué)習(xí)算法,以預(yù)測蛋白質(zhì)在與其他分子相互作用時所呈現(xiàn)的結(jié)構(gòu)。

在2024年春天,他們都發(fā)表了有關(guān)在該領(lǐng)域取得相似進(jìn)展的論文。通過更新算法,他們分別發(fā)布了AlphaFold3和RoseTTAFold All-Atom,它們能夠預(yù)測蛋白質(zhì)與其他蛋白質(zhì)、DNA、RNA和其他小分子結(jié)合時的結(jié)構(gòu)。

生物學(xué)家也開始對這些新模型進(jìn)行測試。目前為止,AlphaFold3比RoseTTAFold All-Atom準(zhǔn)確許多,AlQuraishi表示,但這不是像“AlphaFold2”那樣的技術(shù)飛躍。對于某些大分子,如RNA結(jié)構(gòu),其準(zhǔn)確性仍低于其他基于物理學(xué)的系統(tǒng)和實(shí)驗(yàn)。

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

AlphaFold3 可以預(yù)測分子復(fù)合物的結(jié)構(gòu),例如在破壞植物的真菌中發(fā)現(xiàn)的這種酶。在此模型結(jié)構(gòu)中,蛋白質(zhì)(藍(lán)色)與單糖(黃色)和離子(黃色球體)相連。圖源:Google DeepMind

盡管如此,這些新算法朝著正確的方向邁進(jìn)了一步。蛋白質(zhì)與其他分子的相互作用對其在細(xì)胞中的功能至關(guān)重要。為了開發(fā)可以與蛋白質(zhì)結(jié)合并按需改變其活性的藥物,研究人員需要了解這些復(fù)合物的形態(tài)。然而,Adams說,任何一種算法在短時間內(nèi)都不太可能催生新的藥物。“這兩種方法的準(zhǔn)確性仍然有限,(但)它們都在力所能及的范圍內(nèi)實(shí)現(xiàn)了巨大進(jìn)步。”

DeepMind的新產(chǎn)品還發(fā)生了一個重要的變化。此前AlphaFold2的底層代碼是開源的,其他研究人員可以研究該算法,在此基礎(chǔ)上進(jìn)行調(diào)整,以便更好地服務(wù)自己的項(xiàng)目。然而,谷歌迄今為止都未公開AlphaFold3的源代碼,而是將其作為商業(yè)機(jī)密加以保護(hù)。AlQuraishi說:“至少目前,沒有人可以像使用(AlphaFold2)那樣運(yùn)行和使用它。

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

化學(xué)家兼物理學(xué)家Brenda Rubenstein找到了如何創(chuàng)造性地使用AlphaFold2來預(yù)測她在布朗大學(xué)研究的蛋白質(zhì)的多種構(gòu)象。圖源:Melissa Shein

即使在AlphaFold3發(fā)布之前,研究人員就已經(jīng)在測試AlphaFold2,看看它是否能提供有關(guān)不同構(gòu)象下蛋白質(zhì)的有用信息。布朗大學(xué)化學(xué)和物理學(xué)副教授Brenda Rubenstein對激酶(kinases)這種能激活其他蛋白質(zhì)的蛋白質(zhì)很感興趣。具體來說,她想了解一種誘發(fā)癌癥的激酶的機(jī)制,以此開發(fā)更精準(zhǔn)對癥的藥物。她的實(shí)驗(yàn)室使用物理學(xué)的方法對激酶的結(jié)構(gòu)進(jìn)行了建模,即基于牛頓定律繪制原子的3D坐標(biāo)。這個過程花了兩年半的時間。

Rubenstein說:“大約一年前,我們開始思考能否加速這個過程?”他們嘗試以一種創(chuàng)新的方式使用AlphaFold2。通過向算法輸入有關(guān)相關(guān)蛋白質(zhì)的數(shù)據(jù),她發(fā)現(xiàn)其預(yù)測不同構(gòu)象激酶的準(zhǔn)確度超過了80%。

AlQuraishi評價道,Rubenstein的實(shí)驗(yàn)室為數(shù)不多能夠發(fā)現(xiàn)“如果你以正確的方式‘刺激’AlphaFold,它會輸出多個構(gòu)象”的實(shí)驗(yàn)室之一。“這令人鼓舞。”

AlQuraishi希望到2040年,深度學(xué)習(xí)能夠模擬一個完整的細(xì)胞及其內(nèi)部的所有結(jié)構(gòu)和動態(tài)。然而,要實(shí)現(xiàn)這一目標(biāo),需要在實(shí)驗(yàn)和計算兩方面取得質(zhì)的飛躍。

(5)非專業(yè)視角

對于許多生物學(xué)家來說,AlphaFold2是他們一直在等待的突破性技術(shù)。CASP的目標(biāo)是創(chuàng)建能夠基于氨基酸序列預(yù)測蛋白質(zhì)結(jié)構(gòu)的計算工具。然而,許多人不禁要問:為什么一個初出茅廬的新手能夠破解蛋白質(zhì)的奧秘,而那么多專家卻苦苦掙扎了幾十年?

不可否認(rèn)的是,谷歌DeepMind的計算機(jī)和蛋白質(zhì)科學(xué)團(tuán)隊(duì)為解決這個問題提供了新的視角。同時,蛋白質(zhì)科學(xué)已有無數(shù)先驅(qū)為其打下了堅(jiān)實(shí)的基礎(chǔ),做好了迎接深度學(xué)習(xí)革命的準(zhǔn)備。AlQuraishi說:“這些突破不是憑空出現(xiàn)的。”

到2020年CASP啟動時,許多研究人員預(yù)計結(jié)構(gòu)預(yù)測的突破將通過人工智能實(shí)現(xiàn)。“一切都朝著這個方向發(fā)展,”Townshend 說。但他們沒有想到會來自一家市值數(shù)十億美元的科技公司,也沒有想到會這么快。有些人認(rèn)為AlphaFold2并不是全新的科學(xué)成就,而是精妙的工程技術(shù);有些人對David Baker的算法沒有獲獎感到驚訝;還有些人則認(rèn)為谷歌DeepMind坐擁其他公司和團(tuán)隊(duì)無法匹敵的資源,因此不足為奇。

每年大約有100個實(shí)驗(yàn)室參加CASP,盡管他們已經(jīng)開始采用AI技術(shù),但他們“可能沒有DeepMind的專業(yè)人才儲備,也沒有同等的算力,”Thornton這樣認(rèn)為。DeepMind“可以使用的算力幾乎是無限的”。

她還推測,谷歌雖然在蛋白質(zhì)科學(xué)方面缺乏專業(yè)知識,但這反而可能釋放了他們的創(chuàng)造力。“他們專注于建立一個強(qiáng)大的神經(jīng)網(wǎng)絡(luò),”Thornton說。蛋白質(zhì)生物學(xué)家包袱更重。當(dāng)他們開發(fā)AI工具時,他們希望捕捉蛋白質(zhì)折疊過程中涉及的原子級分子物理和化學(xué)原理。DeepMind的想法不一樣:我們只需序列數(shù)據(jù)轉(zhuǎn)化為3D結(jié)構(gòu),至于如何實(shí)現(xiàn),那無所謂。

Walden說:“他們沒有像此前很多預(yù)測模型那樣,試圖解決蛋白質(zhì)折疊的問題本身,而是單純用‘蠻力’”去繪制原子在空間中的最終位置。有趣的是,他們反而因此解決了這個問題。”

諾貝爾化學(xué)獎:人工智能終結(jié)了蛋白質(zhì)研究嗎?

普林斯頓大學(xué)計算機(jī)科學(xué)家Ellen Zhu于2021年在谷歌DeepMind的AlphaFold2團(tuán)隊(duì)實(shí)習(xí),率先使用深度學(xué)習(xí)與冷凍電鏡相結(jié)合來研究蛋白質(zhì)動力學(xué)。圖源:Tori Repp/Fotobuddy for Princeton University

對一些生物學(xué)家來說,這種方法并沒有完全解決蛋白質(zhì)折疊問題。結(jié)構(gòu)生物學(xué)創(chuàng)立的初心是希望了解氨基酸鏈?zhǔn)侨绾握郫B成蛋白質(zhì)的。大多數(shù)生物學(xué)家認(rèn)為AlphaFold2確實(shí)解決了結(jié)構(gòu)預(yù)測問題,但卻沒有解決蛋白質(zhì)折疊問題。Ellen Zhong表示:“現(xiàn)在,我們只是擁有了一個黑匣子,它可以某種方式告訴你最終的折疊狀態(tài),但實(shí)際上你卻不知道是如何實(shí)現(xiàn)的。”

“這不是科學(xué)家解決問題的方式,”布朗大學(xué)計算機(jī)科學(xué)家Littman表示。

但約翰霍普金斯大學(xué)生物物理學(xué)榮譽(yù)教授George Rose表示,這聽起來可能像是在‘找茬’,但顯然不是。”AlphaFold2可以根據(jù)對數(shù)十萬蛋白質(zhì)結(jié)構(gòu)的分析,識別出給定氨基酸序列潛在折疊模式。但它無法告訴科學(xué)家蛋白質(zhì)折疊過程的任何信息。

“對于許多人來說,你不需要知道。他們不在乎,”Rose說。“但科學(xué),至少從過去500年以來……一直致力于理解事物發(fā)生的過程。”為了理解以蛋白質(zhì)為基礎(chǔ)的生命的動態(tài)變化、機(jī)制、功能和本質(zhì),Rose認(rèn)為,你需要具備對過程的全面了解而深度學(xué)習(xí)算法無法做到這一點(diǎn)。

對Moult來說,重要的并不是機(jī)器在做的事情他無法理解。“我們都習(xí)慣了機(jī)器做我們無法做到的事情。比如,我跑得不如我的車快,”他說。對于想要研究蛋白質(zhì)的分子生物學(xué)家來說,只需要大致知道它的結(jié)構(gòu)即可,至于蛋白質(zhì)是如何折疊形成這樣的結(jié)構(gòu)并不重要。

但“在我們真正知道它是如何運(yùn)作之前,我們永遠(yuǎn)不會有一個100%可靠的預(yù)測器,”Porter說。“我們必須理解基本的物理學(xué),才能做出最有根據(jù)的預(yù)測。”

AlQuraishi 表示:“我們的目標(biāo)在不斷變化。我確實(shí)認(rèn)為核心問題已經(jīng)解決,現(xiàn)在更加關(guān)心接下來會發(fā)生什么。”

即使生物學(xué)家之間還存在不少爭辯,其他人已將目光投向了一個毫無疑問已經(jīng)改變的領(lǐng)域,并開始回顧起近期的發(fā)展。

有時Perrakis會懷念以前的工作方式。2022年,他的團(tuán)隊(duì)通過X射線晶體學(xué)解析了一種參與修飾微管的酶的結(jié)構(gòu)(微管microtubules)是形成細(xì)胞結(jié)構(gòu)的巨大棒狀分子)。他說:“我意識到我再也不會(這樣做)了,也無法再次感受到在數(shù)月的工作之后首次確定結(jié)構(gòu)帶來的特殊滿足感。”

AlphaFold2并沒有淘汰這些實(shí)驗(yàn)。相反,它揭示了它們的必要性。它將兩個歷史上截然不同的學(xué)科聯(lián)系在一起,觸發(fā)了一場酣暢淋漓的對話。

(6)新世界

七十年前,人們認(rèn)為蛋白質(zhì)是一種膠狀物質(zhì),Porter說。“而現(xiàn)在我們能看到的”:一個由各種結(jié)構(gòu)構(gòu)成的巨大的蛋白質(zhì)世界,無論它們是自然界中存在的還是設(shè)計出來的。

蛋白質(zhì)生物學(xué)領(lǐng)域“在AlphaFold出現(xiàn)之后更令人興奮了”,Perrakis說。這種興奮來自于基于蛋白質(zhì)結(jié)構(gòu)促進(jìn)藥物發(fā)現(xiàn)的可能,來自各種假說的層出不窮,來自理解細(xì)胞內(nèi)復(fù)雜相互作用的希望。

“這感覺就像基因組學(xué)革命一樣,”AlQuraishi說。面對海量數(shù)據(jù),無論是在濕實(shí)驗(yàn)室還是在計算機(jī)前的生物學(xué)家都在學(xué)習(xí)如何處理這些數(shù)據(jù)。

但就像在全球范圍內(nèi)激發(fā)的其他人工智能突破一樣,這可能也有一個天花板。

AlphaFold2的成功建立在大量可用的高質(zhì)量訓(xùn)練數(shù)據(jù)上,也就是勤勤懇懇的實(shí)驗(yàn)人員通過一絲不茍的工作解析的數(shù)十萬種蛋白質(zhì)結(jié)構(gòu)。雖然AlphaFold3和相關(guān)算法在確定分子化合物結(jié)構(gòu)方面取得了一些成功,但其準(zhǔn)確性仍不及對單蛋白質(zhì)的預(yù)測。有部分原因就是因?yàn)榭捎玫挠?xùn)練數(shù)據(jù)少了很多。

Thornton 表示,蛋白質(zhì)折疊問題“幾乎是一個AI解決方案的完美例證”,因?yàn)橄嚓P(guān)算法的訓(xùn)練數(shù)據(jù)來自以統(tǒng)一形式收集的數(shù)十萬種蛋白質(zhì)結(jié)構(gòu)。然而,蛋白質(zhì)數(shù)據(jù)庫可能是生物學(xué)領(lǐng)域有組織的數(shù)據(jù)共享的特殊案例。沒有高質(zhì)量的數(shù)據(jù)來訓(xùn)練算法,AI模型將無法做出準(zhǔn)確的預(yù)測。

“我們很幸運(yùn),”Jumper說。“我們遇到問題的時候恰逢解決問題的時機(jī)成熟。”

沒有人知道深度學(xué)習(xí)在解決蛋白質(zhì)折疊問題上的成功是否會延續(xù)到其他科學(xué)領(lǐng)域,甚至是生物學(xué)的其他領(lǐng)域。但有些人,比如AlQuraishi,持樂觀態(tài)度。“蛋白質(zhì)折疊只是冰山一角,”他說。例如,化學(xué)家需要進(jìn)行的計算成本高昂。通過深度學(xué)習(xí),這些計算已經(jīng)比以前快了一百多萬倍,AlQuraishi說。

人工智能顯然可以推進(jìn)特定類型的科學(xué)問題的解決。但它可能只能增進(jìn)科學(xué)家對結(jié)果的了解,而AlQuraishi表示:“從歷史的角度出發(fā),科學(xué)的本質(zhì)在于理解原理,”也就是生命和宇宙演化的基本過程。如果科學(xué)通過給出解決方案而不是揭示過程的深度學(xué)習(xí)工具向前發(fā)展,它還能稱得上是科學(xué)嗎?

“如果你能治愈癌癥,你真的在乎它是如何被治愈的嗎?”AlQuraishi說。“這是一個我們將在接下來數(shù)年里反復(fù)爭論的問題。”

如果許多研究人員決定放棄理解自然的過程,那么人工智能不僅會改變科學(xué)它還會改變科學(xué)家。

與此同時,CASP的組織者正在處理另一個問題:如何繼續(xù)他們的競賽和會議。AlphaFold2是CASP催生的產(chǎn)物,它解決了會議旨在解決的主要問題。“對我們來說,這在某種程度上是一個巨大的沖擊:CASP現(xiàn)在要何去何從?”Moult說。

2022 年,CASP會議在土耳其安塔利亞舉行。谷歌DeepMind團(tuán)隊(duì)沒有參賽,但存在感依然強(qiáng)烈。“幾乎是AlphaFold使用者之間的比賽,”Jones說。從這個意義上說,最大贏家還是谷歌。

現(xiàn)在一些研究人員對參加會議的興趣減少了。“看到那個結(jié)果后,我改變了我的研究方向,”許錦波說。其他人則繼續(xù)完善他們的算法。Jones仍然繼續(xù)結(jié)構(gòu)預(yù)測研究,但這對他來說現(xiàn)在更像是一種愛好。還有一些人,比如AlQuraishi和Baker,繼續(xù)開發(fā)新的結(jié)構(gòu)預(yù)測和設(shè)計算法,即便是與一家市值數(shù)十億美元的公司競爭也絲毫不怵。

Moult和會議組織者正在嘗試與時俱進(jìn)。下一輪CASP于五月開始接受報名。他希望深度學(xué)習(xí)能征服結(jié)構(gòu)生物學(xué)的更多領(lǐng)域,比如RNA或生物分子復(fù)合物。“這種方法解決了一個問題,”Moult說。“但在結(jié)構(gòu)生物學(xué)中還有許多其他相關(guān)問題。”

下一次會議將于2024年12月在加勒比海舉行。藍(lán)天碧海,風(fēng)和日麗,相信大家的交流也會在友好的氛圍中進(jìn)行。至少現(xiàn)在,沒有人會再公開跺腳以示反對了。誰也猜不到今年的比賽會是什么樣子。但基于往屆CASP的經(jīng)驗(yàn)來看,Moult知道有一件事是大家可以期待的“驚喜”。


贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港