基因的轉(zhuǎn)錄在生物學(xué)中心法則中處于承上啟下的重要環(huán)節(jié),與相對“靜態(tài)”的基因組相比,轉(zhuǎn)錄組在不同組織/器官/發(fā)育階段均有顯著變化,是細(xì)胞完成相應(yīng)生理/病理功能的重要生物學(xué)基礎(chǔ)。細(xì)胞是構(gòu)成生命的基礎(chǔ)單元,迅速發(fā)展的單細(xì)胞測序技術(shù)為在單細(xì)胞層面研究細(xì)胞功能及其背后的基因調(diào)控機(jī)制提供了重要的技術(shù)手段,單細(xì)胞測序可用于檢測多種不同的組學(xué)種類,包括轉(zhuǎn)錄組、染色質(zhì)開放組、DNA甲基化組、組蛋白修飾組等等,對不同組學(xué)技術(shù)產(chǎn)生的數(shù)據(jù)進(jìn)行整合分析有助于更全面地刻畫細(xì)胞內(nèi)的基因調(diào)控狀態(tài)、揭示調(diào)控機(jī)制。然而,與傳統(tǒng)的bulk數(shù)據(jù)相比,單細(xì)胞數(shù)據(jù)具有規(guī)模大(百萬級細(xì)胞)、噪聲高(dropout, batch effect)、異構(gòu)性強(qiáng)等特點(diǎn),如何通過開發(fā)新的計(jì)算方法實(shí)現(xiàn)對這些寶貴數(shù)據(jù)的有效利用已成為當(dāng)今生物信息學(xué)領(lǐng)域關(guān)注的重點(diǎn)與熱點(diǎn)。

針對上述挑戰(zhàn),2022年5月2日,北京大學(xué)/昌平實(shí)驗(yàn)室高歌研究員課題組于 Nature Biotechnology 發(fā)表題為“Multi-omics single-cell data integration and regulatory inference with graph-linked embedding”的研究論文,提出了基于圖耦聯(lián)策略的深度學(xué)習(xí)方法GLUE,首次實(shí)現(xiàn)了對百萬級單細(xì)胞多組學(xué)數(shù)據(jù)的無監(jiān)督精準(zhǔn)整合與調(diào)控推斷。

北京大學(xué)高歌課題組提出單細(xì)胞多組學(xué)數(shù)據(jù)整合與調(diào)控推斷新方法-肽度TIMEDOO

單細(xì)胞多組學(xué)數(shù)據(jù)整合的一大挑戰(zhàn)在于不同組學(xué)的特征空間存在差異,例如轉(zhuǎn)錄組的特征是基因,而染色質(zhì)開放組的特征是染色質(zhì)開放區(qū)段,不同特征空間的細(xì)胞缺乏可比性。為了解決這一問題,GLUE提出了全新的圖耦聯(lián)(graph-linking)策略,將組學(xué)特征間的先驗(yàn)調(diào)控關(guān)系表示成引導(dǎo)圖(guidance graph)的形式,其中節(jié)點(diǎn)為組學(xué)特征,邊為組學(xué)特征間的先驗(yàn)調(diào)控關(guān)系。模型采用變分圖自編碼器(Variational Graph AutoEncoder, VGAE)學(xué)習(xí)組學(xué)特征的低維表示作為組學(xué)數(shù)據(jù)的解碼器權(quán)重,從而將不同組學(xué)的低維隱空間表示關(guān)聯(lián)起來并確保其“語義一致性”;在此基礎(chǔ)上,GLUE進(jìn)一步引入對抗學(xué)習(xí)以消除不同組學(xué)降維表示之間的系統(tǒng)性差異(圖1)。

北京大學(xué)高歌課題組提出單細(xì)胞多組學(xué)數(shù)據(jù)整合與調(diào)控推斷新方法-肽度TIMEDOO

圖1 GLUE模型的結(jié)構(gòu)示意圖

與其它方法相比,GLUE的主要優(yōu)勢包括:

多組學(xué)整合的精度高:多個(gè)單細(xì)胞轉(zhuǎn)錄組與染色質(zhì)開放組數(shù)據(jù)的整合評測顯示,GLUE無論是在細(xì)胞類型層面和單細(xì)胞層面,相比已有單細(xì)胞多組學(xué)整合算法具有更高的整合精度(圖2a–c);

對于先驗(yàn)調(diào)控知識具有魯棒性:GLUE引導(dǎo)圖中使用的先驗(yàn)調(diào)控關(guān)系無需特別精確,以單細(xì)胞轉(zhuǎn)錄組與染色質(zhì)開放組數(shù)據(jù)整合為例,只要將染色質(zhì)開放區(qū)段與臨近基因相連就可以構(gòu)建有效的引導(dǎo)圖,噪聲實(shí)驗(yàn)表明即便對上述引導(dǎo)圖添加大量隨機(jī)擾動,GLUE仍能得到正確的整合結(jié)果(圖2d);

北京大學(xué)高歌課題組提出單細(xì)胞多組學(xué)數(shù)據(jù)整合與調(diào)控推斷新方法-肽度TIMEDOO

圖2 GLUE的多組學(xué)整合性能評測結(jié)果

具有較高的計(jì)算可擴(kuò)展性(scalability):GLUE的計(jì)算復(fù)雜度與細(xì)胞數(shù)之間呈亞線性(sublinear)關(guān)聯(lián),是同類方法中唯一可以精準(zhǔn)分析上百萬單細(xì)胞的方法(圖3);

北京大學(xué)高歌課題組提出單細(xì)胞多組學(xué)數(shù)據(jù)整合與調(diào)控推斷新方法-肽度TIMEDOO

圖3 GLUE首次實(shí)現(xiàn)了圖譜級超大規(guī)模單細(xì)胞多組學(xué)數(shù)據(jù)的準(zhǔn)確整合。與同類工具相比,GLUE在細(xì)胞分辨率與疊合精度方面均具有顯著的優(yōu)勢

可支持任意數(shù)量、調(diào)控方向的組學(xué)數(shù)據(jù):通過引入組學(xué)特異的變分自編碼器(Variational AutoEncoder, VAE)組件堆疊,GLUE支持對多組學(xué)非配對(unpaired)數(shù)據(jù)的無監(jiān)督整合。作者成功用其整合了小鼠大腦上皮的單細(xì)胞轉(zhuǎn)錄組、染色質(zhì)開放組和DNA甲基化組,并顯示了三組學(xué)整合可以有效地改善細(xì)胞的類型注釋。與此同時(shí),GLUE在設(shè)計(jì)上引入了模塊化思想,可容易地進(jìn)一步擴(kuò)充以支持如單細(xì)胞Ribo-seq、空間轉(zhuǎn)錄組等更多組學(xué)類型數(shù)據(jù)整合;

可同時(shí)進(jìn)行調(diào)控推斷:除了細(xì)胞層面的跨組學(xué)匹配,由于GLUE在先驗(yàn)調(diào)控圖中直接對調(diào)控關(guān)系進(jìn)行了建模,還可綜合先驗(yàn)調(diào)控信息與多組學(xué)數(shù)據(jù)統(tǒng)計(jì)相關(guān)性,實(shí)現(xiàn)可靠的轉(zhuǎn)錄調(diào)控推斷,作者以外周血數(shù)據(jù)集為例,應(yīng)用GLUE整合了pcHi-C物理相互作用、eQTL突變表型關(guān)聯(lián)、以及單細(xì)胞轉(zhuǎn)錄組與染色質(zhì)開放組資料,并證明GLUE可有效整合多種調(diào)控證據(jù)以得到精準(zhǔn)的調(diào)控關(guān)聯(lián)(圖4)。值得指出的是,GLUE引導(dǎo)圖所需的先驗(yàn)調(diào)控關(guān)系無需特別精確(以單細(xì)胞轉(zhuǎn)錄組與染色質(zhì)開放組數(shù)據(jù)整合為例,只要將染色質(zhì)開放區(qū)段與臨近基因相連就可以構(gòu)建有效的引導(dǎo)圖),系統(tǒng)的評測顯示GLUE多組學(xué)整合與調(diào)控推斷均具有較強(qiáng)的魯棒性。

北京大學(xué)高歌課題組提出單細(xì)胞多組學(xué)數(shù)據(jù)整合與調(diào)控推斷新方法-肽度TIMEDOO

圖4 GLUE可綜合先驗(yàn)調(diào)控知識與單細(xì)胞多組學(xué)觀測進(jìn)行可靠的調(diào)控推斷

GLUE全部實(shí)現(xiàn)代碼已經(jīng)開源發(fā)布(https://github.com/gao-lab/GLUE),可通過PyPI和Anaconda平臺直接安裝使用。

博士生曹智杰為該論文第一作者,高歌為該論文通訊作者。該研究得到了國家重點(diǎn)研發(fā)計(jì)劃、蛋白質(zhì)與植物基因研究國家重點(diǎn)實(shí)驗(yàn)室、北京未來基因診斷高精尖創(chuàng)新中心和昌平實(shí)驗(yàn)室的資助。計(jì)算分析工作于北京大學(xué)高性能計(jì)算校級公共平臺和北京大學(xué)太平洋高性能計(jì)算平臺完成。

來源:北京大學(xué)