展會信息港展會大全

AI Agent自主設計全新蛋白質登Nature!機器人可自己做實驗,無需人類幫助
來源:互聯網   發(fā)布日期:2024-02-13 13:37:09   瀏覽:4706次  

導讀:新智元報道 編輯:Aeneas 【新智元導讀】 這個自動化蛋白質設計系統可以自己設計和測試新的蛋白質,不需要人類的幫助。就像一個能自己做實驗的機器人科學家。它能通過自主學習自行進行蛋白質設計,同時在實驗室里自動進行測試。 AI Agent,已經可以不需要人...

新智元報道

編輯:Aeneas

【新智元導讀】這個自動化蛋白質設計系統可以自己設計和測試新的蛋白質,不需要人類的幫助。就像一個能自己做實驗的機器人科學家。它能通過自主學習自行進行蛋白質設計,同時在實驗室里自動進行測試。

AI Agent,已經可以不需要人類幫助,就能自行設計和測試全新的蛋白質了!

這個AI能夠自主學習蛋白質結構與功能關系。而且在糖苷水解酶領域創(chuàng)造出的新蛋白質,比原始蛋白質更穩(wěn)定。

最近,威斯康星大學麥迪遜分校研究者的這項研究,登上了Nature子刊。

自主設計全新蛋白質

蛋白質工程在化學、能源和醫(yī)學領域有著近乎無限的應用,但創(chuàng)造具有新功能的新蛋白質的工作,目前仍然是緩慢、勞動密集且效率低下。

威斯康星大學麥迪遜分校研究者,研究出了用于蛋白質景觀探索的自動駕駛自主機器 (SAMPLE) 平臺,可以用于完全自主的蛋白質工程。

SAMPLE由智能體驅動,這個智能體會學習蛋白的質序列-功能關系,設計新蛋白質,并將設計發(fā)送到全自動機器人系統。

這個系統會通過實驗測試設計的蛋白質,并提供反饋,以提高智能體對系統的理解。

研究者部署了四種SAMPLE試劑,目的是設計具有增強耐熱性的糖苷水解酶。

實驗結果表明,盡管智能體的搜索行為存在個體差異,但四種藥物都迅速收斂了在熱穩(wěn)定酶上。

可以說,這種自動駕駛實驗室是自動化的,它加速了科學發(fā)現過程,在蛋白質工程和合成生物學領域具有巨大潛力。

實驗過程

以往,研究者設計生物系統,是通過設計實驗來測試假說,進行實驗后解釋結果數據,完善對系統的理解。

隨著過程被迭代,研究者們會收斂生物學機制的知識,并設計出具有改進特性和行為的新系統。

然而,盡管在生物工程和合成生物學方面取得了顯著的成就,但這一過程仍然非常低效、重復和費力,需要多個假設生成和測試周期,可能需要數年時間才能完成。

而機器人科學家和自動駕駛實驗室,可以將自動化學習、推理和實驗相結合,來加速科學發(fā)現,設計新的分子、材料和系統。

智能機器人系統可以跨不同數據源和數據模式進行學習,在不確定的情況下做出決策,不間斷地連續(xù)運行,通過完整的元數據跟蹤和實時數據共享,生成高度可重復、優(yōu)于人類的數據。

自動駕駛實驗室在蛋白質工程和合成生物學領域具有巨大的前景,但這些應用并沒有那么容易,因為生物表型是復雜和非線性的,基因組搜索空間是高維的。

生物實驗需要多個容易出錯、難以自動化的手動處理步驟。

以前也有一些合成生物學的自動化工作流程的例子,需要一些人工輸入和手動樣本處理,但這些工作流程在沒有人工干預的情況下,并不是完全自主的。

而本項研究中的這個用于蛋白質景觀探索的自動駕駛自主機器 (SAMPLE) 平臺,無需人工干預、反饋或主觀性,即可快速設計蛋白質。

平臺由智能體驅動,智能體從數據中學習蛋白質序列-功能關系,并設計新的蛋白質來測試假設。

智能體通過一個全自動的機器人系統與物理世界互動,通過合成基因、表達蛋白質和執(zhí)行酶活性的生化測量,來測試設計的蛋白質。

智能體和實驗自動化之間的無縫集成,可以實現完全自主的設計-測試-學習周期,以理解和優(yōu)化序列-功能環(huán)境。

研究者部署了四種獨立的SAMPLE試劑,來探索糖苷水解酶的前景,并發(fā)現了具有增強熱耐受性的酶。

試劑的優(yōu)化軌跡從探索性行為開始,目的是了解廣泛的景觀結構,然后迅速收斂到高度穩(wěn)定的酶上,這些酶比初始序列至少穩(wěn)定12°C。

可以觀察到,由于實驗測量噪聲,各個智能體的搜索行為存在顯著差異,但所有智能體在搜索不到整個景觀的2%時,都能可靠地識別出熱穩(wěn)定設計。

SAMPLE智能體通過主動信息采集不斷完善對景觀的理解,SAMPLE可以有效地發(fā)現優(yōu)化的蛋白質。

作為一個通用的蛋白質工程平臺,SAMPLE可以廣泛應用于生物工程和合成生物學。

結果:用于蛋白質工程的完全自主系統

在這項工作中,研究者試圖建立一個完全自主的系統,來模仿人類的生物發(fā)現和設計過程。

人類研究者可以被視為在實驗室環(huán)境中執(zhí)行操作、接收數據作為反饋的智能體。

通過與實驗室環(huán)境的反復互動,人類智能體可以理解系統、學習行為,以實現工程目標。

SAMPLE由一個智能體組成,這個智能體會在實驗室環(huán)境中自主學習、做出決策并采取行動,以探索蛋白質序列-功能關系,并設計蛋白質(圖1a)。

SAMPLE是一個用于蛋白質工程的完全自主系統

這個蛋白質適應度景觀,描述了從序列到功能的映射,可以想象為山峰、山谷和山脊的陸地景觀。

SAMPLE智能體,可以從最初未知的序列-功能景觀中識別高活性適應度峰值(即性能最佳的序列)。

在這個過程中,智能體會主動查詢環(huán)境以收集信息,并構建對景觀的內部感知。

智能體必須在勘探和開發(fā)之間分配資源,以了解景觀結構,并利用當前的景觀知識來確定最佳序列配置。

研究者將智能體的蛋白質工程任務視為貝葉斯優(yōu)化(BO)問題,該問題旨在優(yōu)化未知的目標函數,并且必須在探索和開發(fā)之間進行有效的權衡。

SAMPLE智能體會使用高斯過程 (GP) 模型,從有限的實驗觀察中構建對適應度景觀的理解。

這個模型必須考慮感興趣的蛋白質功能,以及由于蛋白質結構不穩(wěn)定而產生的景觀中的非活性「孔」。

研究者會使用多輸出GP,同時模擬蛋白質序列是否為活性/非活性以及感興趣的連續(xù)蛋白質特性。

以先前發(fā)表的細胞色素P450數據為基準,該數據包括331個非活性序列和187個帶有熱穩(wěn)定性標記的活性序列。多輸出GP表現出出色的預測能力,具有83%的主動/非主動分類準確率,并且對于主動序列的子集,預測熱穩(wěn)定性時r=0.84

在序列函數數據上訓練的GP模型,代表了SAMPLE智能體的當前知識,從這里開始,智能體必須決定接下來要評估哪些序列,以實現蛋白質工程目標。

BO技術解決了不確定性下順序決策的問題。置信上限(UCB)算法迭代采樣具有最大置信上限(預測均值加預測區(qū)間)的點,并被證明可以快速收斂到最佳點,樣本效率高。

然而,UCB在蛋白質工程中的實現是有限的,因為景觀中的非活動「孔」沒有提供任何信息來改進模型。

因此,研究者設計了兩種啟發(fā)式BO方法,考慮主動/非主動GP分類器(P (active) )的輸出,將采樣重點放在功能序列上。

「UCB陽性」方法僅考慮GP分類器預測為活動序列的子集 (P (active)>0.5),并選擇具有最高UCB值的序列!割A期UCB」方法通過乘以GP 分類器P (active) 來獲取UCB分數的期望值。研究者通過使用細胞色素P450數據運行10,000次模擬蛋白質工程實驗,來測試這些方法

平均而言,UCB陽性和預期UCB方法僅通過26次測量,就發(fā)現了熱穩(wěn)定的P450,并且所需的樣品比標準UCB和隨機方法少三到四倍。

研究者還在批量設置中測試了BO方法,其中多個序列并行測試,發(fā)現在較小批量中運行實驗略有好處。

該試劑設計蛋白質后,會將其發(fā)送到SAMPLE實驗室環(huán)境,以提供實驗反潰

研究者開發(fā)了一種高度精簡、穩(wěn)健和通用的流程,用于自動化基因組裝、無細胞蛋白表達和生化表征。

程序使用克隆組裝預合成的DNA片段25 ,以產生完整的基因和基于T7的蛋白質表達所需的5'/3'非翻譯區(qū)域。

然后通過聚合酶鏈反應擴增組裝的表達盒,并使用熒光染料EvaGreen驗證產物以檢測雙鏈DNA。

然后將擴增的表達盒直接添加到基于T7的游離蛋白表達試劑中,以產生靶蛋白。最后,使用比色/熒光測定法對表達的蛋白質進行表征,以評估其生化活性和性質。

在這項工作中,研究者專注于糖苷水解酶及其對高溫的耐受性。

在鏈霉菌屬的四種不同的糖苷水解酶家族1(GH1)酶上,研究者測試了自動化實驗流程的重現性。

該系統可靠地測量了酶的熱穩(wěn)定性。

該過程需要1小時的基因組裝,1小時的PCR,3小時的蛋白質表達,3 小時的熱穩(wěn)定性測量,以及9小時的從請求的蛋白質設計到物理蛋白質樣品再到相應數據點。

GH1組合序列空間

基于云端的糖苷水解酶自主設計

應用SAMPLE的目的,就是導航和優(yōu)化GH1的熱穩(wěn)定性圖景。

研究者在Strateos云實驗室上實施了實驗管道,以增強其他研究人員的可擴展性和可訪問性。

為此,他們部署四個獨立的SAMPLE試劑,每個試劑都接種了相同的六個天然GH1序列。

智能體根據預期 UCB 標準設計序列,每輪選擇三個序列,總共運行20輪(圖 3a)。

這四種智能體的優(yōu)化軌跡顯示出景觀的逐漸攀升,早期階段以探索行為為特征,后期輪次一致地對熱穩(wěn)定設計進行采樣。

在兩種情況下,質量過濾器遺漏了錯誤數據,并錯誤地將熱穩(wěn)定性值分配給非活動序列。

研究者故意不糾正這些錯誤的數據點,以觀察智能體在獲取更多景觀信息時,如何從錯誤中恢復。

有大量不確定的實驗,如圖3a底部的問號所示。

其中大多數是非活性酶的結果,試劑必須測試兩次才能將其指定為非活性酶。大約9%的實驗失敗,可能是由于液體處理錯誤。

每種試劑發(fā)現的GH1序列,都要比六個初始天然序列至少穩(wěn)定12°C。

智能體在搜索不到2%的完整組合景觀時,就能識別出這些序列。

研究者可視化了智能體的搜索軌跡,發(fā)現每個智能體在收斂到相同的全局適應度峰值之前廣泛探索了序列空間(圖3b)。

所有四個智能體都到達了景觀的相似區(qū)域,但每個智能體發(fā)現的頂部序列都是獨一無二的。

熱穩(wěn)定序列往往由 P6F0、P1F2或P5F2和P1F3基因片段組成,這表明相應的氨基酸片段可能含有穩(wěn)定殘基和/或相互作用。

因此,可以相信智能體已經確定了1,352個成員組合序列空間的全局適應度峰值,因為所有四個智能體都收斂到同一個峰值,并且使用所有智能體收集的所有數據訓練的GP模型,都預測到了與智能體發(fā)現的序列相似的頂級序列。

贊助本站

人工智能實驗室
相關內容
AiLab云推薦
推薦內容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港