生成式人工智慧想像新的蛋白質結構

Author Avatar

葉孝明

Joined: Feb 2022

FrameDiff 是一種計算工具,它使用生成人工智慧來製作新的蛋白質結構,旨在加速藥物開發和改善基因治療。

來源: MIT NEWS

gree fur
照片來源: Unsplash

生物學是一幅奇妙而精緻的掛毯。核心是DNA,編碼蛋白質的主要編織者,負責協調維持人體生命的許多功能。然而,我們的身體就像一個精心調諧的樂器,很容易失去和諧。畢竟,我們面臨著一個不斷變化和無情的自然世界:病原體、病毒、疾病和癌症。

想像一下,如果我們能夠加快為新出現的病原體製造疫苗或藥物的過程。如果我們有能夠自動產生蛋白質的基因編輯技術來糾正導致癌症的DNA錯誤會怎樣?尋找能夠與靶標強結合或加速化學反應的蛋白質對於藥物開發、診斷和眾多工業應用至關重要,但這通常是一項長期且昂貴的工作。

為了提高在蛋白質工程方面的能力,麻省理工學院CSAIL的研究人員提出了“FrameDiff”,這是一種計算工具,用於創造超出自然界產生的新蛋白質結構。機器學習方法生成與蛋白質結構固有屬性一致的“框架”,使其能夠獨立於預先存在的設計構建新的蛋白質,從而促進前所未有的蛋白質結構。

“在自然界中,蛋白質設計是一個緩慢燃燒的過程,需要數百萬年的時間。我們的技術旨在為解決人類造成的問題提供答案,這些問題的發展速度比自然界的速度快得多,“麻省理工學院CSAIL博士生Jason Yim說,他是一篇關於這項工作的新論文的主要作者。“關於這種產生合成蛋白質結構的新能力,其目標是開闢無數增強的能力,例如更好的粘合劑。這意味著設計可以更有效和更有選擇性地附著到其他分子上的蛋白質,具有與靶向藥物遞送和生物技術相關的廣泛影響,其中可能導致更好的生物感測器的開發。它還可能對生物醫學領域及其他領域產生影響,提供諸如開發更有效的光合作用蛋白,產生更有效的抗體以及為基因治療工程納米顆粒等可能性。

框架差異

蛋白質具有複雜的結構,由許多通過化學鍵連接的原子組成。決定蛋白質3D形狀的最重要的原子被稱為「骨架」,有點像蛋白質的脊柱。沿著主鏈的每個三元原子共用相同的鍵和原子類型模式。研究人員注意到,可以利用這種模式來構建機器學習演算法,使用微分幾何和概率的想法。這就是框架的用武之地:在數學上,這些三元組可以建模為稱為“框架”(在物理學中很常見)的剛體,它們在 3D 中具有位置和旋轉。

這些框架為每個三原子提供了足夠的資訊來瞭解其空間環境。然後,機器學習演算法的任務是學習如何移動每個框架以構建蛋白質骨架。通過學習構建現有的蛋白質,該演算法有望創造出自然界中從未見過的新蛋白質。

訓練模型通過「擴散」構建蛋白質涉及注入雜訊,隨機移動所有幀並模糊原始蛋白質的外觀。該演算法的工作是移動和旋轉每一框架,直到它看起來像原始蛋白質。雖然簡單,但框架上擴散的發展需要黎曼流形上的隨機微積分技術。在理論方面,研究人員開發了“SE(3)擴散”,用於學習概率分佈,該概率分佈非平凡地連接每個框架的平移和旋轉元件。

微妙的傳播藝術

2021年,DeepMind 推出了AlphaFold2,這是一種深度學習演算法,用於從序列中預測3D蛋白質結構。在創建合成蛋白質時,有兩個基本步驟:生成和預測。生成意味著創建新的蛋白質結構和序列,而“預測”意味著弄清楚序列的3D結構是什麼。AlphaFold2也使用框架來類比蛋白質並非巧合。SE(3) 擴散和 FrameDiff 受到啟發,通過將框架合併到擴散模型中來進一步推廣框架的概念,這是一種生成 AI 技術,在圖像生成中已經變得非常流行,例如 Midjourney。

蛋白質結構生成和預測之間的共用框架和原理意味著兩端的最佳模型是相容的。與華盛頓大學蛋白質設計研究所合作, SE(3)擴散已被用於創造和實驗驗證新型蛋白質。具體來說,他們將 SE(3)擴散與RosettaFold2相結合,RosettaFold2是一種蛋白質結構預測工具,與AlphaFold2非常相似,這導致了“RFdiffusion”。這種新工具使蛋白質設計師更接近解決生物技術中的關鍵問題,包括開發用於加速疫苗設計的高度特異性蛋白質結合劑,用於基因傳遞的對稱蛋白質工程,以及用於精確酶設計的堅固基序支架。

FrameDiff的未來努力包括提高對結合藥物等生物製劑的多種要求的問題的普遍性。另一個擴展是將這些模型推廣到所有生物模式,包括DNA和小分子。該團隊認為,通過擴展  FrameDiff對更實質性數據的訓練並增強其優化過程,它可以生成具有與RFdiffusion相當的設計能力的基礎結構,同時保留FrameDiff固有的簡單性。

“丟棄[在FrameDiff中]的預訓練結構預測模型,為快速生成擴展到大長度的結構開闢了可能性,”哈佛大學計算生物學家Sergey Ovchinnikov說。研究人員的創新方法為克服當前結構預測模型的局限性邁出了有希望的一步。儘管這仍然是初步工作,但它是朝著正確方向邁出的令人鼓舞的一步。因此,蛋白質設計的願景在解決人類最緊迫的挑戰中發揮著關鍵作用,這要歸功於麻省理工學院研究團隊的開創性工作,似乎越來越觸手可及。

Yim與哥倫比亞大學博士後Brian Trippe,巴黎數據科學中心的法國國家科學研究中心研究員Valentin De Bortoli,劍橋大學博士後Emile Mathieu以及牛津大學統計學教授和DeepMind Arnaud Doucet的高級研究科學家一起撰寫了這篇論文。麻省理工學院教授Regina Barzilay和Tommi Jaakkola為這項研究提供了建議。

該團隊的工作部分得到了麻省理工學院安利捷健康機器學習診所、EPSRC 撥款以及 Microsoft Research 與劍橋大學之間的繁榮合作夥伴關係、國家科學基金會研究生研究獎學金計劃、NSF Expeditions 資助、藥物發現和合成機器學習聯盟、DTRA 發現針對新出現威脅的醫療對策計劃、 DARPA加速分子發現計劃和賽諾菲計算抗體設計資助。這項研究將在七月的國際機器學習會議上發表。

※版權所有,歡迎媒體聯絡我們轉載;登錄本網按讚、留言、分享,皆可獲得 OCTOVERSE 點數(8-Coin),累積後可兌換獎品,相關辦法以官網公布為準※

新增留言