人類完整基因組高配“拼圖”完成
4月1日《科學》雜志封面:填補空缺。圖片來源:《科學》
4月1日,美國科學家領銜的國際合作團隊在發(fā)表于《科學》的6篇論文中報告稱,有史以來最完整的人類基因組圖譜繪制完成。
20多年前,科學家發(fā)表了人類基因組草圖,破譯了“生命天書”。不過,當時的序列尚不完整。此后遺傳學家持續(xù)改進,但仍有約8%的序列缺失或錯誤。
現在,科學家揭開了最后的謎團,人類基因組圖譜的最后一塊拼圖終于補齊。
“人類基因組的這些部分,對我們理解基因組如何工作、遺傳疾病、人類多樣性和進化非常重要?!痹撗芯堪l(fā)起人之一、美國加利福尼亞大學圣克魯茲分校的Karen Miga在郵件中告訴《中國科學報》。
“零件”更齊全的“高配”汽車
科學家于1990年啟動人類基因組測序項目,并于2001年公布了首個人類基因組草圖。
它使人們對人類生物學和疾病的理解取得巨大進展。但因為技術限制,最初公布的基因組序列并不完整。
“構成人類23對染色體的DNA堿基對太長了,當時測序時總是要切割。切割后我們就遇到一個問題——人類遺傳密碼中有大量的重復序列?!敝袊茖W院院士、國際人類基因組計劃參與者陳潤生向《中國科學報》解釋道,其中一類是像“糖葫蘆”一樣串聯的重復序列,另一類則是散在的重復序列。
“如果串成串,你不知道它串的是99個重復還是100個重復;散在的問題是不知道要把它接到哪一個具有重復基因的片段上?!标悵櫳f,有人將這部分難測的基因形容為“夢幻的”或“隱蔽的”基因。
2003年人類基因組計劃宣告完成之后,遺傳學家繼續(xù)對這部分隱蔽基因進行改進,但仍有約8%的序列存在缺失或錯誤?,F在,在新技術的支撐下,科學家終于破譯了最后一塊拼圖,繪制出缺失的部分。
新版本基因組被命名為T2T-CHM13。這有兩個緣由。一方面,它由“端粒到端?!保═2T)聯盟繪制。另一方面,研究人員是從一個被稱為CHM13的細胞系中讀取的DNA。該細胞系來自完全性葡萄胎——當精子使一個沒有細胞核的卵子受精時在人體內形成的組織,這種細胞可以在實驗室中培養(yǎng)。
普通人類細胞的每段DNA都有兩個副本,一個來自母親,另一個來自父親,往往存在重大差異。當科學家試圖組裝基因組片段時,來自父母的序列可能會混合在一起,掩蓋了個體基因組中的實際變化。
使用CHM13就避免了這個問題。由此產生的細胞只含有來自父親的染色體。“這使我們看到了生命基因手稿中以前從未讀過的章節(jié)?!比A盛頓大學霍華德·休斯醫(yī)學研究所研究員、T2T聯盟聯合主席Evan Eichler說。
T2T-CHM13被認為是自人類參考基因組首次發(fā)布以來進行的最大改進。
據了解,它比上一個版本增加了近2億個堿基對以及2000多個新基因;繪制了更精確的五條染色體臂的圖譜,這將有助于人們進一步增加對染色體的認識;覆蓋了基因組中最復雜的一些區(qū)域,包括在重要染色體結構及其周圍發(fā)現的高度重復的DNA序列,如將兩條染色體連接在一起的著絲粒和為細胞的蛋白質工廠提供指令核糖體的DNA;發(fā)現了人類基因組中200多萬個變異,為622個醫(yī)學相關的基因組變異提供了更準確的信息。
“以前我們看到了90%以上的基因組,但還有許多重要方面隱藏在科學視野之外?,F在,我們可以站在山頂,看到山下所有的風景,獲得人類基因資源的完整圖像?!奔永D醽喆髮W圣克魯茲分校基因組學研究所主任David Haussler說。
“假如把人類基因組序列比作一輛非常復雜的汽車,那么與20年前完成的人類基因組草圖相比,完整的新序列相當于增添了更多零件。”對此,人類基因組計劃參與者、中國科學院北京基因組研究所研究員于軍在接受《中國科學報》采訪時比喻說,“沒有它能跑,有它更好?!?/p>
“游戲規(guī)則的改變者”
過去10年間出現的第三代DNA測序“長讀”技術是彌補8%空缺的“游戲規(guī)則的改變者”。
在T2T聯盟采用的兩種技術中,牛津納米孔DNA測序方法可以一次讀取100萬個DNA字母,但精度不高;而太平洋生物科學公司的測序方法可以一次讀取大約2萬個字母,精度近乎完美。這兩種測序方法的優(yōu)勢“疊加”生成了完整的人類基因組序列。
“這種技術的進步是劃時代的,就像從蒸汽機發(fā)展到內燃機再到信息化、智能化的大踏步前進。”于軍說,這是獲取完整序列的“后盾”。
“長讀技術加上進行基因組重建和質量評估的創(chuàng)新方法,是這項努力成功的原因?!盡iga對記者說。
那么,中國相關技術儲備如何呢?
深圳華大生命科學研究院群體基因組學領域首席科學家金鑫向《中國科學報》表示,我國10年以前基本上依賴國外的基因測序設備,但在2015年開始擁有第一款真正的國產基因測序儀,目前擁有一款全球單日數據量產出最高的測序儀。
“在短讀長(基因序列精讀)部分,我們已經做到了與全球領先水平并駕齊驅,相關錯誤率僅有萬分之一,甚至是十萬分之一。”他表示,相關技術已經非常穩(wěn)定。
在長讀方面,他表示,國內多家機構正處于研發(fā)和追趕的階段,現在也有了一些突破。
神秘的著絲粒
對于此次人類基因組的新部分,研究人員特別感興趣的是神秘的著絲粒。它們是將兩條染色體連接在一起的密集的DNA束,在細胞分裂中起著關鍵作用。
“約90%的新序列實際上來自染色體的著絲粒?!泵枋鲋z粒周圍堿基對序列論文的第一作者、加利福尼亞大學伯克利分校的博士后Nicolas Altemose介紹,著絲粒內部及周圍的新DNA序列約占整個基因組的6.2%。
他和團隊發(fā)現,著絲粒的大型蛋白質復合物牢牢抓住了染色體,這樣細胞核內的其他機器就可以將染色體對分開。“一旦這一過程出錯,就會得到錯誤的染色體分離,這將導致各種問題。如果這發(fā)生在減數分裂中,就意味著可能會發(fā)生染色體異常,導致自然流產或先天性疾病。如果它發(fā)生在體細胞中,可能會導致癌癥?!彼f。
他們還以T2T-CHM13為框架,比較了來自世界各地的1600名個體的著絲粒DNA,發(fā)現了其周圍重復DNA的序列和拷貝數的主要差異,這可以用于追溯人類的譜系。
此外,完整的基因組也有助于提高科學家對不同人群個體基因組變異的理解力。
據介紹,T2T-CHM13將為人類參考基因組38 (GRCh38)提供補充。該基因組起源于人類基因組計劃,自2000年第一稿以來一直在更新。GRCh38并不代表任何一個個體,而是由多個捐贈者的DNA組裝而成,被合并為一個線性序列。
Miga表示,單個基因組的成功完成并不是最后的定論。目前,T2T聯盟已與人類泛基因組參考聯盟合作,旨在對350個個體進行全基因組測序,并基于此創(chuàng)建一個新的“人類泛基因組參考”,以“確保準確地捕獲整個相關的基因組”。
于軍則向《中國科學報》表示,中國人的基因組與現有的完整白人基因組序列仍然存在較大差異,他希望我國盡快發(fā)展三代、四代測序技術,測出完整的中國人基因組序列。
相關論文信息:
https://doi.org/10.1126/science.abj6987
https://doi.org/10.1126/science.abl3533
https://doi.org/10.1126/science.abj6965
https://doi.org/10.1126/science.abl4178
https://doi.org/10.1126/science.abk3112
https://doi.org/10.1126/science.abj5089
來源: 中國科學報


本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經許可,禁止轉載。