北京大學(xué)張澤民課題組發(fā)表單細(xì)胞數(shù)據(jù)整合新方法
2月18日,北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心(BIOPIC)、生命科學(xué)學(xué)院、北京未來(lái)基因診斷高精尖創(chuàng)新中心(ICG)、生命科學(xué)聯(lián)合中心(CLS)張澤民實(shí)驗(yàn)室聯(lián)合百奧智匯在期刊 Genome Biology 上發(fā)表了題為“iMAP: integration of multiple single-cell datasets by adversarial paired transfer networks”的生物信息方法學(xué)論文,提出了基于深度自編碼器和生成式對(duì)抗神經(jīng)網(wǎng)絡(luò)的單細(xì)胞數(shù)據(jù)整合的新方法iMAP。
利用單細(xì)胞RNA測(cè)序技術(shù)產(chǎn)生可靠新發(fā)現(xiàn)的重要途徑是整合多來(lái)源的數(shù)據(jù)集。然而,不同批次實(shí)驗(yàn)產(chǎn)生的數(shù)據(jù)集之間存在不可避免的技術(shù)差異,消除這些技術(shù)差異而保留不同實(shí)驗(yàn)之間真實(shí)存在的生物學(xué)差異,是開發(fā)批量效應(yīng)消除方法的主要挑戰(zhàn)。目前的主流批次效應(yīng)消除方法都很難在兩者之間做到可靠的平衡。
張澤民實(shí)驗(yàn)室博士后王東方等開發(fā)了一種新的方法iMAP,為單細(xì)胞數(shù)據(jù)的有效整合提供了新的思路。他們開發(fā)的iMAP方法結(jié)合了目前兩種最先進(jìn)的無(wú)監(jiān)督深度網(wǎng)絡(luò)結(jié)構(gòu)—深度自編碼器和生成式對(duì)抗神經(jīng)網(wǎng)絡(luò)(GAN)的優(yōu)勢(shì)。GAN的主要作用在于能夠準(zhǔn)確地將不同數(shù)據(jù)集、相同細(xì)胞類型的細(xì)胞的基因表達(dá)分布進(jìn)行混合,然而真實(shí)生物數(shù)據(jù)集的細(xì)胞組成十分復(fù)雜,可能存在不完全重合的細(xì)胞類型,相同細(xì)胞類型在不同數(shù)據(jù)集中的分布比例也可能存在很大差異。因此,iMAP首先構(gòu)建了一種新的自編碼器結(jié)構(gòu)來(lái)提取細(xì)胞的低維表示特征,該特征能夠一定程度上消弭批次效應(yīng)的影響,同時(shí)保留不同數(shù)據(jù)集之間真實(shí)存在的生物學(xué)差異,進(jìn)而通過構(gòu)建rwMNN細(xì)胞對(duì),形成有效的自訓(xùn)練數(shù)據(jù)指導(dǎo)后續(xù)GAN網(wǎng)絡(luò)進(jìn)行正確的細(xì)胞基因表達(dá)分布混合。與其他方法相比,iMAP既能匹配不同批次數(shù)據(jù)集中相同類型的細(xì)胞的基因表達(dá)分布,又能識(shí)別各個(gè)數(shù)據(jù)集上特定的細(xì)胞類型。他們?cè)谑鄠€(gè)不同規(guī)模、不同測(cè)序技術(shù)產(chǎn)生的數(shù)據(jù)集上論證了iMAP方法的有效性與可靠性。與其他基于深度學(xué)習(xí)的方法相比,iMAP在大規(guī)模數(shù)據(jù)集上具有顯著的速度優(yōu)勢(shì)。他們也將iMAP應(yīng)用于腫瘤浸潤(rùn)免疫細(xì)胞數(shù)據(jù)集的分析,通過整合分別由Smart-seq2和10x Genomics技術(shù)產(chǎn)生的數(shù)據(jù)集發(fā)現(xiàn)了腫瘤微環(huán)境中新的細(xì)胞間相互作用。
iMAP算法的基本框架
iMAP提供了免費(fèi)Python軟件包(https://github.com/Svvord/iMAP),可供用戶實(shí)現(xiàn)單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)整合。隨著單細(xì)胞測(cè)序技術(shù)的廣泛普及應(yīng)用以及大量的大規(guī)模數(shù)據(jù)集的產(chǎn)生,iMAP可能成為整合不同批次實(shí)驗(yàn)產(chǎn)生的數(shù)據(jù)的有利工具,并為后續(xù)算法的開發(fā)提供新的思路。
北京大學(xué)BIOPIC/生命科學(xué)學(xué)院博士后王東方和清華大學(xué)博士生侯思宇為該論文的共同第一作者,王東方和BIOPIC/生命科學(xué)學(xué)院張澤民教授為該論文的通訊作者。該課題得到了國(guó)家自然科學(xué)基金委、北京未來(lái)基因診斷高精尖創(chuàng)新中心及北京百奧智匯的資助。
來(lái)源:北京大學(xué)

