top of page

真實版演化模擬道具,ESM3模型如何模擬五億年的演化

  • 作家相片: Rodrigo
    Rodrigo
  • 2025年10月30日
  • 讀畢需時 3 分鐘

已更新:3月12日


在日本漫畫多啦A夢中,存在這樣一個道具。這個道具被稱作進化退化光線槍(日文:進化退化放射線源),它可以使被照射到的生物發生進化,或著退化回祖先的樣貌,十分的有趣。當然我們都知道,像這樣的道具在現實生活中是不可能存在的。演化本身是非常複雜且漫長的過程,人類難以用器具去觀察生物體的變化,更別說把整個生物的演化歷程模擬出來。


然而,在2025年一篇發表在《Science》期刊上,名為《Simulating 500 million years of evolution with a language model》的文章卻顛覆了這個看法。該團隊利用生成式人工智能成功復現了綠色螢光蛋白(GFP)五億年的演化歷程。用白話文來說,就是作者們利用AI人工智慧模擬出類似進化退化槍的功能,讓一段蛋白序列在電腦裡逐漸變成類似螢光蛋白的模樣,而這個蛋白也確實擁有螢光蛋白的功能。

圖(一) GFP序列模型。(圖片來源:Zephyris,採用 CC BY-SA 3.0 授權。)
圖(一) GFP序列模型。(圖片來源:Zephyris,採用 CC BY-SA 3.0 授權。)

那麼,研究團隊是如何利用人工智慧模擬演化?

首先,研究人員設計一項名為ESM3的生成式語言模型,這個模型可以根據我們提供的蛋白質數據庫,隨機生成許多蛋白質序列。為了配合這個語言模型,作者將蛋白質序列分類成三種詞元(Token),分別是序列、結構與功能。可以將詞元想像成是一種語言,在這個框架下,ESM3能夠根據現有蛋白質的數據,去理解各種蛋白質由哪些序列構成,什麼樣的序列能夠產生對應的三維結構,以及什麼樣的結構可以產生具有功能性的蛋白。


這樣的學習系統下,ESM3的核心採用一種名為transformer的多層模塊引擎,這個引擎總共有三種規模,分別是小(1.4B)中(7B)、大(98B)三種。該引擎採用幾何注意力機制,能夠隨時監督蛋白的結構,確保蛋白質產生合理的結構。


為了能夠篩選特定的蛋白質,研究團隊還為這個模型設計了一段遮罩語言。各位讀者可以將這段遮罩語言看作是天擇壓力,在這個壓力下,不適合條件的蛋白將會被ESM3刪除,僅留下符合敘述條件的蛋白持續生成,藉此模擬出真實演化的歷程。


在ESM3設計完成後,為了測試ESM3是否能真正模擬演化,研究人員從一個序列身份較低的起始蛋白開始,透過ESM3的提示機制逐步生成變體,期望能透過提示ESM3模擬出綠色螢光蛋白。他們提供條件提示,包括綠色螢光蛋白的關鍵殘基序列、原子級結構(如催化中心的三維坐標)和功能關鍵詞(如“螢光”或“自催化”)。


圖(二)GFP的天然來源,維多利亞發光水母(Aequorea victoria)(圖片來源:Mnolf,採用 CC BY-SA 3.0 授權。)
圖(二)GFP的天然來源,維多利亞發光水母(Aequorea victoria)(圖片來源:Mnolf,採用 CC BY-SA 3.0 授權。)

模型透過迭代採樣,從部分遮罩狀態填充詞元,生成候選序列。這些候選隨後使用ESMFold等工具評估結構置信度(pTM > 0.8)和提示忠實度(cRMSD < 1.5 Å),並在對齊訓練後提升成功率。


最終,ESM3也不負眾望生成了一個名為esmGFP的變體,其序列與最近的自然GFP僅有58%相似度,相當於模擬超過5億年進化。實驗驗證顯示,esmGFP在大腸桿菌中表達後,能產生亮度與自然GFP相當的螢光。這項成果不僅模擬了大自然數億年的演化篩選機制,還為展示了人工智慧作為蛋白質預測工具的潛力。


未來展望


作為一項蛋白質預測工具,ESM3為人類展現的不僅僅只是模擬演化這麼簡單,這項工具有望應用於更多領域。想像一下,在未來,人們可以隨心所欲的設計所需的蛋白質,從治療癌症所需的抗體,到能夠分解塑膠的酵素、全新的蛋白質纖維製品等等。透過更大規模的模型與蛋白質數據庫,人們將可以探索更多醫學與合成生物學的可能性。


當然,就如同多啦A夢的進化退化光線槍一樣,ESM3模型也像是一把雙面刃,在享受便利的同時,人類也需考慮到這個AI模型是否會被濫用。這些問題牽涉到倫理與安全性,而這都是我們未來需要面臨的挑戰。


總而言之,這篇論文象徵著人類從預測蛋白功能轉變為模擬蛋白演化的里程碑。雖然無法像進化退化光線槍那樣做到隨心所欲觀測生物演化,但ESM3卻為科學領域開啟了可程式設計的全新時代。


更多相關資訊可以參考ESM3模型官方網站 https://www.evolutionaryscale.ai/blog/esm3-release



作者:Rodrigo


參考文獻

Hayes, T., et al. (2025). Simulating 500 million years of evolution with a language model. Science, 387(6736), 850-858. https://doi.org/10.1126/science.ads0018

留言


bottom of page