展會信息港展會大全

全球首創(chuàng):分子之心開源新AI算法,攻克蛋白質(zhì)側(cè)鏈預測與序列設計難題
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-06-05 18:07:13   瀏覽:6036次  

導讀:機器之心專欄 機器之心編輯部 PSCP 深度架構(gòu) AttnPacker大幅優(yōu)化的AI算法。 蛋白質(zhì)結(jié)構(gòu)和功能的形成,很大程度上取決于側(cè)鏈原子間的相互作用,因此,精準的蛋白質(zhì)側(cè)鏈預測(PSCP)是解決蛋白質(zhì)結(jié)構(gòu)預測和蛋白質(zhì)設計難題的關鍵一環(huán)。但此前蛋白質(zhì)結(jié)構(gòu)預測大多...

機器之心專欄

機器之心編輯部

PSCP 深度架構(gòu) AttnPacker大幅優(yōu)化的AI算法。

蛋白質(zhì)結(jié)構(gòu)和功能的形成,很大程度上取決于側(cè)鏈原子間的相互作用,因此,精準的蛋白質(zhì)側(cè)鏈預測(PSCP)是解決蛋白質(zhì)結(jié)構(gòu)預測和蛋白質(zhì)設計難題的關鍵一環(huán)。但此前蛋白質(zhì)結(jié)構(gòu)預測大多聚焦于主鏈結(jié)構(gòu),側(cè)鏈結(jié)構(gòu)預測始終是一個未被完全解決的難題。

近日,分子之心許錦波團隊推出一種新的 PSCP 深度架構(gòu) AttnPacker,在速度、內(nèi)存效率和整體精度方面取得大幅提升,是目前已知的最優(yōu)側(cè)鏈結(jié)構(gòu)預測算法,也是全球首創(chuàng)的可同時進行蛋白質(zhì)側(cè)鏈預測和序列設計的 AI 算法。

論文發(fā)表在《美國科學院院刊》(PNAS)上,其預訓練模型、源代碼和推理腳本都已在 Github 上開源。

論文鏈接:https://www.pnas.org/doi/10.1073/pnas.2216438120#supplementary-materials

開源鏈接:https://github.com/MattMcPartlon/AttnPacker

背景

蛋白質(zhì)由數(shù)個氨基酸折疊而成,其結(jié)構(gòu)分為主鏈和側(cè)鏈。側(cè)鏈的差異性對蛋白質(zhì)的結(jié)構(gòu)與功能有巨大影響,尤其是生物活性;趯(cè)鏈結(jié)構(gòu)的清晰認知,科學家們能夠更精準地測定蛋白質(zhì)三維結(jié)構(gòu),解析蛋白質(zhì) - 蛋白質(zhì)之間的相互作用,并進行理性蛋白設計。應用到藥物設計領域,科學家們便能更快、更準確地找到適合藥物與受體的結(jié)合點位,甚至根據(jù)需要優(yōu)化或設計結(jié)合點位;在酶優(yōu)化領域,科學家們可以通過對序列的優(yōu)化改造,讓多個側(cè)鏈參與催化反應,實現(xiàn)更高效、特異性更高的催化效果。

當前大多數(shù)蛋白質(zhì)結(jié)構(gòu)預測算法主要針對主鏈的結(jié)構(gòu)解析,但蛋白質(zhì)側(cè)鏈結(jié)構(gòu)預測還是一個未被完全突破的難題。無論是 AlphaFold2 等熱門蛋白質(zhì)結(jié)構(gòu)預測算法,還是 DLPacker、RosettaPacker 等專注側(cè)鏈結(jié)構(gòu)預測的算法,準確度或速度都不盡如人意。這也為蛋白質(zhì)設計帶來了限制。

傳統(tǒng)方法,如 RosettaPacker,主要使用能量優(yōu)化方法,先對側(cè)鏈原子的分布進行分組,再針對某個特定氨基酸來搜索側(cè)鏈的分組,尋找能量最小的組合。這些方法主要區(qū)別于研究者對旋轉(zhuǎn)異構(gòu)體文庫、能量函數(shù)和能量最小化程序的選擇,準確性受限于對搜索啟發(fā)式方法和離散抽樣程序的使用。業(yè)界也有基于深度學習的側(cè)鏈預測方法,如 DLPacker,它將 PSCP 表述為圖像到圖像的轉(zhuǎn)換問題,并采用了 U-net 模型結(jié)構(gòu)。但預測精度和速度依然不夠理想。

方法

AttnPacker 是一種端到端的預測蛋白質(zhì)側(cè)鏈坐標的深度學習方法。它聯(lián)合模擬了側(cè)鏈相互作用,直接預測的側(cè)鏈結(jié)構(gòu)在物理上更可行,具有更少的原子碰撞和更理想的鍵長和角度。

具體而言,AttnPacker 引入了一種利用 PSCP 的幾何和關系方面的深度圖轉(zhuǎn)換器架構(gòu)。受 AlphaFold2 啟發(fā),分子之心提出了位置感知三角形更新,以使用基于圖形的框架來計算三角形注意力和乘法更新,從而優(yōu)化成對特征。通過這種方法,AttnPacker 的內(nèi)存顯著減少并擁有更高容量的模型。此外,分子之心探索了幾種 SE (3) 等變注意力機制,并提出了一種用于從 3D 點學習的等變變換器架構(gòu)。

AttnPacker 運行流程。以蛋白質(zhì)主鏈坐標和序列作為輸入,并基于坐標信息導出空間特征圖和等變基。特征圖由不變量 graph-transformer 模塊處理,然后傳遞給一個等變的 TFN-Transformer 輸出預測的側(cè)鏈坐標、每個殘基的置信度分數(shù)和可選的設計序列。預測坐標經(jīng)過后處理,以去除所有空間沖突,并確保理想化的幾何結(jié)構(gòu)。

效果

在預測效果上,AttnPacker 對天然和非天然主鏈結(jié)構(gòu)都顯示出準確性和效率上的改進。同時保證了物理上的可行性,與理想鍵長和角度的偏差可以忽略不計,且產(chǎn)生了最小的原子空間位阻。

分子之心在 CASP13 和 CASP14 天然和非天然蛋白質(zhì)主鏈數(shù)據(jù)集上對 AttnPacker 與目前最先進的方法 SCWRL4、FASPR、RosettaPacker 和 DLPacker 進行對比測試。結(jié)果顯示,AttnPacker 在 CASP13 和 CASP14 天然主鏈上顯著優(yōu)于傳統(tǒng)蛋白質(zhì)側(cè)鏈預測方法,平均重建 RMSD 比每個測試集上的次優(yōu)方法低 18% 以上。AttnPacker 還超越了深度學習方法 DLPacker,平均 RMSD 降低了 11% 以上,同時也顯著提高了側(cè)鏈二面角精度。除了準確性,AttnPacker 的原子碰撞明顯少于其他方法。

給出天然主鏈結(jié)構(gòu)時,各算法在 CASP13 和 CASP14 目標蛋白上的側(cè)鏈結(jié)構(gòu)預測結(jié)果。星號表示平均沖突值低于天然結(jié)構(gòu) CASP13 為 56.0、5.9 和 0.4,CASP14 為 80.4、7.9 和 2.5。

在 CASP13 和 CASP14 非天然主鏈上,AttnPacker 也明顯優(yōu)于其他方法,原子碰撞也明顯少于其他方法。

給出非天然主鏈結(jié)構(gòu)時,各算法在 CASP13 和 CASP14 目標蛋白上的側(cè)鏈結(jié)構(gòu)預測結(jié)果。星號表示平均沖突值低于相應天然結(jié)構(gòu) CASP13 的 34.6、2.2、0.5 和 CASP14 的 40.0、2.7、0.7。

創(chuàng)新性地擯棄了離散的旋轉(zhuǎn)異構(gòu)體庫以及計算上昂貴的構(gòu)象搜索和采樣步驟,直接結(jié)合主鏈 3D 幾何結(jié)構(gòu)來并行計算所有側(cè)鏈坐標。AttnPacker 與基于深度學習的方法 DLPacker、基于傳統(tǒng)計算方法的 RosettaPacker 相比,計算效率顯著提高,減少了 100 倍以上的推理時間。

不同 PSCP 方法的時間比較。重建所有 83 個 CASP13 目標蛋白的側(cè)鏈原子的相對時間。

AttnPacker 在蛋白質(zhì)設計上的表現(xiàn)同樣優(yōu)秀。分子之心訓練了一個 AttnPacker 變體用以協(xié)同設計,該變體可實現(xiàn)媲美當下最先進的方法的天然序列恢復率,同時還可生產(chǎn)高度精確的組裝。Rosetta 模擬驗證顯示,AttnPacker 設計的結(jié)構(gòu)通常會產(chǎn)生亞原生(更低的)Rosetta 能量。

用 ESMFold scTM 和 plDDT 指標對比天然蛋白質(zhì)序列和 AttnPacker 生成的序列,以評估 AttnPacker 的生成質(zhì)量,結(jié)果表現(xiàn)出強相關性。

除了效果和效率驚人之外,AttnPaker 還有一個非常實用的價值 它非常易用。AttnPaker 只需要一個蛋白質(zhì)的結(jié)構(gòu)文件即可運行。相比之下,OPUS-Rota4 (28) 需要來自 DLPacker 的原子環(huán)境的體素表示、來自 trRosetta100 的邏輯、二級結(jié)構(gòu)和來自 OPUS-CM 輸出的約束文件。另外,由于 AttnPacker 直接預測側(cè)鏈坐標,輸出是完全可微分的,這有利于下游預測任務,例如優(yōu)化或蛋白質(zhì) - 蛋白質(zhì)相互作用。“預測效果好、效率高、易用,這些優(yōu)勢有利于 AttnPacker 在研究和工業(yè)領域的廣泛使用。” 許錦波教授表示。

總結(jié)

1、AttnPacker 是一個用于直接預測序列和側(cè)鏈坐標的 SE(3)等變模型,可以用于蛋白質(zhì)側(cè)鏈結(jié)構(gòu)預測,也可用于蛋白質(zhì)序列設計,是一項開創(chuàng)性的工作。

2、AttnPacker 的準確性優(yōu)于其他方法,且效率大幅提升,并具備極高的易用性。

贊助本站

人工智能實驗室
相關內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港