科研成果 | 張強鋒課題組開發(fā)基于細胞內RNA結構預測蛋白質-RNA動態(tài)相互作用的人工智能方法


作者通過整合細胞內RNA結構信息以及對應細胞系的RBP結合信息,利用深度神經(jīng)網(wǎng)絡,構建了預測RBP結合位點的PrismNet模型。該模型在168個人類RBP結合的CLIP數(shù)據(jù)集上進行了訓練學習和檢驗,發(fā)現(xiàn)其預測準確率顯著高于之前僅僅利用RNA序列以及整合基于序列預測得到的RNA結構的方法,預測和CLIP實驗結果的吻合度甚至達到或超過同一條件下兩個CLIP實驗的吻合度(圖2)。顯然,細胞內RNA結構信息對于預測準確率的提高起到了重要作用。有意思的是,作者發(fā)現(xiàn)RNA結構信息對于提高雙鏈結合蛋白預測準確率的幫助更大。

RBP和RNA研究領域內多年的積累,產(chǎn)生了大約200個基于CLIP實驗的RBP轉錄組結合圖譜,是研究RNA調控的重要資源。PrismNet的一個重要應用價值在于大大擴充了這個資源。比如,對于任意一個RBP,只要在這七個細胞系的任意一個細胞系內做了CLIP實驗,PrismNet就可以通過構建準確的深度神經(jīng)網(wǎng)絡模型,把結合信息外推到所有七個細胞系中。對該研究所產(chǎn)生的大量細胞內RNA結構、所預測的不同RBP結合位點的信息資源,作者提供了查詢以及下載網(wǎng)站(http://prismnet.zhanglab.net/)供其他研究組訪問和使用。
最后要提到的是,張強鋒研究組利用PrismNet模型,使用新冠病毒SARS-CoV-2在宿主細胞內的RNA基因組結構信息,預測了多個新冠病毒的宿主結合蛋白;從這些宿主蛋白出發(fā),找到了一些對抑制新冠傳播有效的重定位藥物【5】。這個研究再次證明了PrismNet的廣闊應用前景。
據(jù)悉,清華大學生命學院博士后孫磊、博士生徐魁、博士生黃文澤等為論文第一作者,結構生物學高精尖創(chuàng)新中心張強鋒研究員為論文通訊作者。課題組其他成員李盼、唐磊、熊團林博士、樸美玲博士等為本研究做出了重要貢獻。清華大學醫(yī)學院沈曉驊實驗室尹亞飛博士、紀家葵實驗室王楠提供了相關細胞系。香港中文大學王曉剛教授與邵靜博士為深度學習模型設計提供了寶貴建議。商湯研究院在GPU計算設施上提供了幫助。
3. Sun, L., Fazal, F.M., Li, P., Broughton, J.P., Lee, B., Tang, L., Huang, W., Kool, E.T., Chang, H.Y., and Zhang, Q.C. (2019). RNA structure maps across mammalian cellular compartments.?Nature structural & molecular biology?26, 322-330.
4. Shi, B., Zhang, J., Heng, J., Gong, J., Zhang, T., Li, P., Sun, B.F., Yang, Y., Zhang, N., Zhao, Y.L., et al. (2020). RNA structural dynamics regulate early embryogenesis through controlling transcriptome fate and function.?Genome Biol?21, 120.
5. Sun, L., Li, P., Ju, X., Rao, J., Huang, W., Zhang, S., Xiong, T., Xu, K., Zhou, X., Ren, L., et al. (2021). In vivo structural characterization of the whole SARS-CoV-2 RNA genome identifies host cell target proteins vulnerable to re-purposed drugs. Cell
https://doi.org/10.1016/j.cell.2021.02.008.

