學習分子的語言以預測其性質

Author Avatar

葉孝明

Joined: Feb 2022

這種人工智慧系統只需要少量數據就能預測分子性質,從而加快藥物發現和材料開發的速度

來源: MIT NEWS

Photo Of Woman Looking Through Camera
照片來源: Pixabay

發現新材料和藥物通常需要一個手動的試驗和錯誤的過程,可能需要數十年的時間和數百萬美元的成本。為了簡化這個過程,科學家們通常使用機器學習來預測分子性質,並縮小他們需要在實驗室中合成和測試的分子範圍。

麻省理工學院(MIT)和MIT-IBM Watson AI實驗室的研究人員開發了一種新的統一框架,可以同時預測分子性質並比這些流行的深度學習方法更高效地生成新的分子。

為了教導機器學習模型預測分子的生物或機械性質,研究人員必須向其展示數百萬個帶有標籤的分子結構,這個過程被稱為訓練。由於發現分子的成本以及手動標記數百萬個結構的挑戰,大型訓練數據集通常很難獲得,這限制了機器學習方法的有效性。

相比之下,麻省理工學院的研究人員創建的系統可以在只有少量數據的情況下有效地預測分子性質。他們的系統對於規定構建塊如何組合以產生有效分子的規則有一種基本的理解。這些規則捕捉了分子結構之間的相似性,有助於系統以節省數據的方式生成新的分子並預測其性質。

這種方法在小型和大型數據集上的表現優於其他機器學習方法,並且在給定少於100個樣本的數據集時能夠準確地預測分子性質並生成可行的分子。

“我們這個項目的目標是使用一些數據驅動的方法來加速新分子的發現,這樣你就可以訓練一個模型來進行預測,而不需要進行這些成本高昂的實驗,”領導作者、計算機科學和電氣工程(EECS)研究生Minghao Guo說。

Guo的合著者包括MIT-IBM Watson AI實驗室的研究人員Veronika Thost、Payel Das和Jie Chen;最近畢業於MIT的Samuel Song ’23和Adithya Balachandran ’23;以及高級作者Wojciech Matusik,他是電氣工程和計算機科學教授,也是MIT-IBM Watson AI實驗室的成員,他在MIT計算機科學和人工智能實驗室(CSAIL)內領導計算設計和製造組。這項研究將在國際機器學習大會上發表。

學習分子的語言

為了使機器學習模型獲得最佳結果,科學家們需要具有數百萬個分子的訓練數據集,這些分子具有與他們希望發現的分子相似的性質。實際上,這些特定領域的數據集通常非常小。因此,研究人員使用已在一些通用分子的大型數據集上預訓練的模型,然後將其應用於更小的、有針對性的數據集。然而,由於這些模型沒有獲得太多特定領域的知識,它們往往表現不佳。

麻省理工學院的團隊採取了不同的方法。他們創建了一個機器學習系統,只使用少量特定領域的數據集,自動學習分子的“語言”,也就是所謂的分子語法。它使用這種語法來構建可行的分子並預測它們的性質。

在語言理論中,根據一組語法規則生成單詞、句子或段落。你可以將分子語法看作是一樣的。它是一組生成規則,規定了如何通過結合原子和亞結構來生成分子或聚合物。

就像語言語法可以使用相同的規則生成大量的句子一樣,一個分子語法可以表示大量的分子。具有相似結構的分子使用相同的語法生成規則,系統學會理解這些相似性。

由於結構相似的分子通常具有相似的性質,系統使用其對分子相似性的基本知識來更高效地預測新分子的性質。

“一旦我們將這個語法作為所有不同分子的表示,我們就可以用它來提升性質預測的過程,”Guo說。

系統使用強化學習來學習分子語法的生成規則,這是一個試驗和錯誤的過程,模型會因為接近實現目標的行為而獲得獎勵。

但由於組合原子和亞結構的方式可能有數十億種,學習語法生成規則的過程對於除了最小數據集以外的任何東西來說都太耗費計算資源了。

研究人員將分子文法分解為兩部分。第一部分被稱為元文法,是一種普適的文法,他們在一開始手動設計並提供給系統。然後,它只需要從領域數據集中學習一個更小的、特定於分子的文法。這種分層方法加快了學習過程。

大成果,小數據集

在實驗中,研究人員的新系統同時生成了可行的分子和聚合物,並且在領域特定數據集只有幾百個樣本時,預測它們的性質比幾種流行的機器學習方法更準確。一些其他方法還需要昂貴的預訓練步驟,而這個新系統則避免了這一點。

這種技術在預測聚合物的物理性質方面特別有效,例如玻璃轉變溫度,這是材料從固體轉變為液體所需的溫度。手動獲取這些信息通常非常昂貴,因為實驗需要極高的溫度和壓力。

為了進一步推進他們的方法,研究人員將一個訓練集減少了一半以上,只有94個樣本。他們的模型仍然取得了與使用整個數據集訓練的方法相當的結果。

郭說:“這種基於文法的表示非常強大。由於文法本身是一種非常普適的表示,它可以應用於不同類型的圖形數據。我們正在試圖找出化學或材料科學以外的其他應用。”

在未來,他們還希望擴展他們目前的分子文法,包括分子和聚合物的三維幾何結構,這對於理解聚合物鏈之間的相互作用至關重要。他們還正在開發一個界面,用戶可以通過該界面查看學習到的文法生成規則並徵求反饋,以修正可能錯誤的規則,提高系統的準確性。

這項工作部分由MIT-IBM Watson AI實驗室及其成員公司Evonik資助。

※版權所有,歡迎媒體聯絡我們轉載;登錄本網按讚、留言、分享,皆可獲得 OCTOVERSE 點數(8-Coin),累積後可兌換獎品,相關辦法以官網公布為準※

新增留言