top of page

真實版演化模擬道具,ESM3模型如何模擬五億年的演化

  • 作家相片: Rodrigo
    Rodrigo
  • 2025年10月30日
  • 讀畢需時 3 分鐘

在日本漫畫多啦A夢中,存在這樣一個道具。這個道具被稱作進化退化光線槍(日文:進化退化放射線源),它可以使被照射到的生物發生進化,或著退化回祖先的樣貌,十分的有趣。當然我們都知道,像這樣的道具在現實生活中是不可能存在的。演化本身是非常複雜且漫長的過程,人類難以用器具去觀察生物體的變化,更別說把整個生物的演化歷程模擬出來。


然而,在2025年一篇發表在《Science》期刊上,名為《Simulating 500 million years of evolution with a language model》的文章卻顛覆了這個看法。該團隊利用生成式人工智能成功復現了綠色螢光蛋白(GFP)五億年的演化歷程。用白話文來說,就是作者們利用AI人工智慧模擬出類似進化退化槍的功能,讓一段蛋白序列在電腦裡逐漸變成類似螢光蛋白的模樣,而這個蛋白也確實擁有螢光蛋白的功能。

圖(一) GFP序列模型。(圖片來源:Zephyris,採用 CC BY-SA 3.0 授權。)
圖(一) GFP序列模型。(圖片來源:Zephyris,採用 CC BY-SA 3.0 授權。)

那麼,研究團隊是如何利用人工智慧模擬演化?

首先,研究人員設計一項名為ESM3的生成式語言模型,這個模型可以根據我們提供的蛋白質數據庫,隨機生成許多蛋白質序列。為了配合這個語言模型,作者將蛋白質序列分類成三種詞元(Token),分別是序列、結構與功能。可以將詞元想像成是一種語言,在這個框架下,ESM3能夠根據現有蛋白質的數據,去理解各種蛋白質由哪些序列構成,什麼樣的序列能夠產生對應的三維結構,以及什麼樣的結構可以產生具有功能性的蛋白。


這樣的學習系統下,ESM3的核心採用一種名為transformer的多層模塊引擎,這個引擎總共有三種規模,分別是小(1.4B)中(7B)、大(98B)三種。該引擎採用幾何注意力機制,能夠隨時監督蛋白的結構,確保蛋白質產生合理的結構。


為了能夠篩選特定的蛋白質,研究團隊還為這個模型設計了一段遮罩語言。各位讀者可以將這段遮罩語言看作是天擇壓力,在這個壓力下,不適合條件的蛋白將會被ESM3刪除,僅留下符合敘述條件的蛋白持續生成,藉此模擬出真實演化的歷程。


在ESM3設計完成後,為了測試ESM3是否能真正模擬演化,研究人員從一個序列身份較低的起始蛋白開始,透過ESM3的提示機制逐步生成變體,期望能透過提示ESM3模擬出綠色螢光蛋白。他們提供條件提示,包括綠色螢光蛋白的關鍵殘基序列、原子級結構(如催化中心的三維坐標)和功能關鍵詞(如“螢光”或“自催化”)。


圖(二)GFP的天然來源,維多利亞發光水母(Aequorea victoria)(圖片來源:Mnolf,採用 CC BY-SA 3.0 授權。)
圖(二)GFP的天然來源,維多利亞發光水母(Aequorea victoria)(圖片來源:Mnolf,採用 CC BY-SA 3.0 授權。)

模型透過迭代採樣,從部分遮罩狀態填充詞元,生成候選序列。這些候選隨後使用ESMFold等工具評估結構置信度(pTM > 0.8)和提示忠實度(cRMSD < 1.5 Å),並在對齊訓練後提升成功率。


最終,ESM3也不負眾望生成了一個名為esmGFP的變體,其序列與最近的自然GFP僅有58%相似度,相當於模擬超過5億年進化。實驗驗證顯示,esmGFP在大腸桿菌中表達後,能產生亮度與自然GFP相當的螢光。這項成果不僅模擬了大自然數億年的演化篩選機制,還為展示了人工智慧作為蛋白質預測工具的潛力。


未來展望


作為一項蛋白質預測工具,ESM3為人類展現的不僅僅只是模擬演化這麼簡單,這項工具有望應用於更多領域。想像一下,在未來,人們可以隨心所欲的設計所需的蛋白質,從治療癌症所需的抗體,到能夠分解塑膠的酵素、全新的蛋白質纖維製品等等。透過更大規模的模型與蛋白質數據庫,人們將可以探索更多醫學與合成生物學的可能性。


當然,就如同多啦A夢的進化退化光線槍一樣,ESM3模型也像是一把雙面刃,在享受便利的同時,人類也需考慮到這個AI模型是否會被濫用。這些問題牽涉到倫理與安全性,而這都是我們未來需要面臨的挑戰。


總而言之,這篇論文象徵著人類從預測蛋白功能轉變為模擬蛋白演化的里程碑。雖然無法像進化退化光線槍那樣做到隨心所欲觀測生物演化,但ESM3卻為科學領域開啟了可程式設計的全新時代。


更多相關資訊可以參考ESM3模型官方網站 https://www.evolutionaryscale.ai/blog/esm3-release



作者:Rodrigo


參考文獻

Hayes, T., Rao, R., Akin, H., Sofroniew, N. J., Oktay, D., Lin, Z., Verkuil, R., Tran, V. Q., Deaton, J., Wiggert, M., Badkundri, R., Shafkat, I., Gong, J., Derry, A., Molina, R. S., Thomas, N., Khan, Y. A., Mishra, C., Kim, C., ... Rives, A. (2025). Simulating 500 million years of evolution with a language model. Science, 387(6736), 850-858. https://doi.org/10.1126/science.ads0018

留言


bottom of page