科學家創(chuàng)建了一個能夠從頭開始生成人造酶的人工智能系統(tǒng)。在實驗室測試中,其中一些酶與自然界中發(fā)現(xiàn)的酶一樣有效,即使它們的人工生成的氨基酸序列與任何已知的天然蛋白質(zhì)存在顯著差異。相關(guān)研究結(jié)果發(fā)表于《自然—生物技術(shù)》。

AI技術(shù)從零開始生成原始蛋白質(zhì)-肽度TIMEDOO

圖片來源:IAN C. HAYDON/UW INSTITUTE FOR PROTEIN DESIGN

該實驗表明,自然語言處理雖然是為讀寫語言文本而開發(fā)的,但至少可以學習一些生物學的基本原理。Salesforce Research開發(fā)了名為ProGen的AI程序,該程序使用下一個標記預(yù)測將氨基酸序列組裝成人造蛋白質(zhì)。

科學家表示,這項新技術(shù)可能比獲得諾貝爾獎的蛋白質(zhì)設(shè)計技術(shù)定向進化更強大,它將加速新蛋白質(zhì)的開發(fā),為已有50年歷史的蛋白質(zhì)工程領(lǐng)域注入活力。這些新蛋白質(zhì)幾乎可以用于從治療到降解塑料的任何領(lǐng)域。

“人工設(shè)計的性能比受進化過程啟發(fā)的設(shè)計好得多?!痹撗芯孔髡咧?、加州大學舊金山分校藥學院生物工程和治療科學教授James Fraser表示,語言模型正在學習進化的各個方面,但它不同于正常的進化過程?!拔覀儸F(xiàn)在能夠針對特定效果調(diào)整這些屬性的生成。如一種非常熱穩(wěn)定或喜歡酸性環(huán)境或不會與其他蛋白質(zhì)相互作用的酶?!?/p>

為了創(chuàng)建這個模型,科學家們只需將2.8億種不同蛋白質(zhì)的氨基酸序列輸入機器學習模型中,并讓它消化信息幾周。然后,他們通過使用來自五個溶菌酶家族的56,000個序列,以及有關(guān)這些蛋白質(zhì)的一些上下文信息來對模型進行微調(diào)。

該模型迅速生成了100萬個序列,研究團隊根據(jù)它們與天然蛋白質(zhì)序列的相似程度,以及AI蛋白質(zhì)的潛在氨基酸“語法”和“語義”的自然程度,選擇了100個進行測試。

在第一批由Tierra生物科學公司體外篩選的100種蛋白質(zhì)中,該團隊制作了5種人工蛋白質(zhì)以用于細胞測試,并將其活性與雞蛋清中發(fā)現(xiàn)的一種酶(雞蛋清溶菌酶,HEWL)進行比較。在人類的眼淚、唾液和牛奶中也發(fā)現(xiàn)了類似的溶菌酶,它們可以抵御細菌和真菌。

其中兩種人工酶能夠分解細菌的細胞壁,其活性與HEWL相當。但它們的序列彼此只有約18%相同,這兩個序列與任何已知蛋白質(zhì)的同一性約為90%和70%。

天然蛋白質(zhì)中只要有一個突變就能使其停止工作,但在另一輪篩選中,研究小組發(fā)現(xiàn),即使只有31.4%的序列與任何已知的天然蛋白質(zhì)相似,AI生成的酶仍顯示出活性。

人工智能甚至能夠通過簡單地研究原始序列數(shù)據(jù)來了解酶應(yīng)該如何形成。通過X射線晶體學測量發(fā)現(xiàn),人造蛋白質(zhì)的原子結(jié)構(gòu)看起來和它們應(yīng)該有的樣子一樣,盡管這些序列是前所未有的。

2020年,Salesforce Research基于他們的研究人員最初開發(fā)用于生成英語文本的一種自然語言編程,開發(fā)了 ProGen。他們從之前的工作中了解到,人工智能系統(tǒng)可以自學語法和單詞的含義,以及其他使寫作井井有條的基本規(guī)則。

“當你用大量數(shù)據(jù)訓(xùn)練基于序列的模型時,它們在學習結(jié)構(gòu)和規(guī)則方面確實非常強大,能夠了解哪些詞可以同時出現(xiàn),以及組合性?!痹撗芯客ㄓ嵶髡咧弧alesforce Research人工智能研究主管Nikhil Naik說。

對于蛋白質(zhì),設(shè)計選擇幾乎是無限的。溶菌酶和蛋白質(zhì)一樣小,最多約有300個氨基酸。但是有20種可能的氨基酸,就有20300種可能的組合。這比有史以來所有人類的總和乘以地球上的沙粒數(shù)再乘以宇宙中的原子數(shù)還要多。

鑒于無限的可能性,該模型能夠如此輕松地產(chǎn)生工作酶是非常了不起的。

該研究通訊作者之一、Profluent Bio創(chuàng)始人Ali Madani說:“開箱即用的從頭開始生成功能性蛋白質(zhì)的能力表明,我們正在進入蛋白質(zhì)設(shè)計的新時代。對于蛋白質(zhì)工程師來說,這是可用的多功能新工具,我們期待看到它的治療應(yīng)用?!?/p>

相關(guān)論文信息:https://doi.org/10.1038/s41587-022-01618-2

來源:中國科學報