科研人員發(fā)布人類基因組結(jié)構(gòu)變異數(shù)據(jù)庫和計算分析平臺
10月16日,復(fù)旦大學(xué)生命科學(xué)學(xué)院/人類表型組研究院教授徐書華團(tuán)隊、中國科學(xué)院上海營養(yǎng)與健康研究所研究員張國慶、復(fù)旦大學(xué)生命科學(xué)學(xué)院研究員樊少華合作,開發(fā)出人類基因組結(jié)構(gòu)變異數(shù)據(jù)庫PGG.SV(https://www.biosino.org/pggsv/)。相關(guān)研究成果以PGG.SV: a whole-genome-sequencing-based structural variant resource and data analysis platform為題,發(fā)表在《核酸研究》(Nucleic Acids Research)上。該數(shù)據(jù)庫通過收集全球人群的全基因組測序數(shù)據(jù),專注于基因組結(jié)構(gòu)變異數(shù)據(jù)的挖掘和整合,為人類基因組結(jié)構(gòu)變異的研究提供了數(shù)據(jù)獲取、信息查詢和在線分析的綜合平臺。
基因組結(jié)構(gòu)變異(SVs)主要包括基因組上大片段的DNA缺失、插入、片段重復(fù)等變異類型。研究顯示,SV與癌癥、自閉癥、神經(jīng)發(fā)育障礙等多種復(fù)雜遺傳病有關(guān),近年來在醫(yī)學(xué)和遺傳學(xué)領(lǐng)域中持續(xù)受到關(guān)注。隨著基因組測序技術(shù)的進(jìn)步和普及,大量的結(jié)構(gòu)變異被不斷發(fā)現(xiàn)和研究,一些具有強致病性的結(jié)構(gòu)變異也逐漸得到驗證。該研究旨在通過構(gòu)建具有代表性、多樣性的健康人群基因組結(jié)構(gòu)變異數(shù)據(jù)集,一方面為遺傳病患者的結(jié)構(gòu)變異研究提供可靠的對照樣本,另一方面對變異功能的注釋和預(yù)測將有效縮小致病性突變的篩選范圍,為相關(guān)領(lǐng)域研究提供有效的指導(dǎo)和幫助。
由于結(jié)構(gòu)變異在不同地區(qū)和民族之間存在顯著差異和多樣性,而現(xiàn)有的數(shù)據(jù)庫和公共數(shù)據(jù)集各自采用不同的分析流程,因此缺乏具有人群樣本和新一代測序數(shù)據(jù)代表性的結(jié)構(gòu)變異資源和分析平臺,尤其對東亞人群樣本的覆蓋度不足??蒲袌F(tuán)隊整合了大規(guī)模的測序數(shù)據(jù),包括全球177個代表性地區(qū)和族群的6,048個全基因組測序數(shù)據(jù),特別對我國豐富的民族多樣性特征進(jìn)行了深度分析,首次覆蓋了我國50個少數(shù)民族。截至論文發(fā)表,數(shù)據(jù)庫共收錄584,277個結(jié)構(gòu)變異,并將在未來持續(xù)增加。此外,PGG.SV首次納入了三代長讀長(long-reads)測序數(shù)據(jù),其在結(jié)構(gòu)變異的檢測中具有更大的優(yōu)勢,特別是在插入序列的檢測和判定方面,效果顯著優(yōu)于二代測序技術(shù)。先前的大規(guī)模結(jié)構(gòu)變異數(shù)據(jù)庫均基于二代測序或基因芯片數(shù)據(jù)構(gòu)建。研究團(tuán)隊產(chǎn)生和收集了1,030個三代測序基因組,并首次采用三代測序與二代測序結(jié)合的方式構(gòu)建結(jié)構(gòu)變異數(shù)據(jù)庫,從而大幅提升了結(jié)構(gòu)變異檢測結(jié)果的數(shù)量和質(zhì)量。
在數(shù)據(jù)庫功能上,PGG.SV提供了簡潔、友好的查詢功能,提供不同族群結(jié)構(gòu)變異在基因組位置上的精確展示以及全球各個族群之間的頻率差異等統(tǒng)計信息。利用課題組先前積累的優(yōu)勢,PGG.SV與徐書華團(tuán)隊此前開發(fā)的PGG.SNV等數(shù)據(jù)庫進(jìn)行聯(lián)動,借助連鎖不平衡和基因組空間位置信息,將單核苷酸變異(SNV)的詳細(xì)結(jié)果與結(jié)構(gòu)變異相結(jié)合,以增強數(shù)據(jù)多樣性的解析功能。此外,PGG.SV提供了豐富的臨床效應(yīng)分析和預(yù)測分析功能,根據(jù)與結(jié)構(gòu)變異存在關(guān)聯(lián)的基因和調(diào)控元件,提供對其潛在表型、功能的預(yù)測和富集分析以及由特定疾病和表型檢索相關(guān)結(jié)構(gòu)變異的工具,以便有臨床研究等需求的用戶使用。
此外,PGG.SV支持豐富的在線分析和可視化功能。研究團(tuán)隊提供對用戶提交的結(jié)構(gòu)變異結(jié)果的比較和注釋,以便使用者了解自己的目標(biāo)樣本與數(shù)據(jù)庫提供的對照樣本之間的差異;提供結(jié)構(gòu)變異可視化功能,能夠在人類基因組上檢索用戶提交的DNA序列、展示相關(guān)變異的基因組位置以及變異空間結(jié)構(gòu)變化的精細(xì)可視化。
PGG.SV提供了高質(zhì)量的人群基因組結(jié)構(gòu)變異數(shù)據(jù)資源,基于新一代測序數(shù)據(jù)大幅提升人類基因組結(jié)構(gòu)變異信息檢測和展示,尤其是首次較為全面地覆蓋了東亞人群和中國人群的結(jié)構(gòu)變異多樣性,并提供相關(guān)基因和潛在臨床效應(yīng)的注釋。此外,該平臺提供了包括病例對照研究在內(nèi)的多種在線分析功能以及人類基因組結(jié)構(gòu)變異的可視化工具。
研究工作得到國家自然科學(xué)基金、中科院戰(zhàn)略性先導(dǎo)科技專項、英國皇家學(xué)會牛頓高級學(xué)者基金、人類表型組上海市市級重大專項等的支持。
圖1.PGG.SV數(shù)據(jù)處理流程示意圖
圖2.PGG.SV界面示意圖
來源:中科院


本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉(zhuǎn)載。