華大等機構有關363種鳥類基因組數據研究登《Nature》封面!進一步揭示基因組多樣性演化奧秘
2020年11月12日,深圳華大生命科學研究院生物多樣性團隊、昆明動物研究所等單位聯(lián)合在《自然》(Nature)上同期以封面形式發(fā)表了兩篇文章報道萬種鳥類基因組計劃第二階段(科級別)最新研究結果。研究團隊發(fā)表了363種鳥類基因組數據,同時通過這一數據建立了無參考序列下多基因組比對和分析的新方法,并基于這一新方法闡明高密度物種取樣對生物多樣性研究的重要性,為深入了解基因組多樣性演化奧秘提供了契機。
Nature 雜志封面
(圖片來自Nature官網)
建立無參考序列的基因組比對算法Cactus
傳統(tǒng)的比較基因組學分析依賴于某個基因組作為參考序列建立全基因組比對,進而開展相關的比較分析。這一方法存在兩個弊端,一是因為受制于參考基因組而無法識別出其他物種特異序列或者其他物種之間的差異序列,二是因為只獲取單拷貝同源區(qū)域而丟失了由分支特異復制事件所帶來的一比多或多比多的同源區(qū)域。在多物種比較分析中,由于基因復制、序列丟失或獲得、染色體結構變異等事件存在的情況下,如何獲取更真實且全面的序列同源關系用于后續(xù)系統(tǒng)發(fā)生關系的解析和比較基因組學相關分析尤為關鍵。
針對此問題,研究團隊建立了適用于多物種且無參基因組的比對算法——Cactus。該算法基于預設的物種關系樹,將復雜的多序列比對問題分解到物種分支上,對每個分支上的物種開展兩兩比對并構建出其祖先基因組序列,而后再基于祖先序列將更多分支的物種基因組排比在一起,從而構建出無參考序列的多基因組比對信息。
這一方法成功的解決了現(xiàn)有多序列比對軟件的弊端,也極大的提高了跨物種的比對效率,減少了由于與參考物種遺傳距離差異引起的比對偏好和序列丟失。例如,363只鳥類基因組構建的全基因組比對序列總長為981Mb,比之前以雞和斑胸草雀為參考基因組構建的48只鳥類全基因組比對序列在長度上提升了149%。深圳國家基因庫張國捷教授和加州大學圣克魯斯分校的Benedict Paten共同為文章的通訊作者。
高密度物種取樣,覆蓋鳥類92%的科階元
無參基因組比較完整描繪鳥類物種譜系基因組動態(tài)演化圖譜
無參的全基因組比對數據集為全面解析鳥類遺傳多樣性特征的演化歷程和分子遺傳機制提供了全新的切入點。在另外一篇文章中,研究團隊借助Cactus這一算法的優(yōu)勢建立了更加完善的同源基因集合,還開發(fā)了一套鑒定任意演化分支特異獲得和丟失序列的方法,從而完整描繪出鳥類物種譜系基因組動態(tài)演化圖譜。
研究發(fā)現(xiàn)這些動態(tài)變化的基因組區(qū)域往往存在一些分支特異基因或調控元件,可能與物種特異性狀的起源和演化有關。比如,雀形目鳥類基因組多出一個生長激素基因的拷貝。雀形目中的鳴禽丟失了Cornulin?基因,該基因所編碼的蛋白主要位于食管和口腔上皮細胞,其缺失可能會引起食管上皮的粘彈性特性發(fā)生變化,進而使得食管上部直徑可以產生快速變化來調整的聲道,這可能與其多樣化的純音發(fā)聲演化有關。
此外,研究發(fā)現(xiàn)基于高覆蓋度的物種取樣的基因組比較分析顯著提高了對基因組序列保守性的檢驗效力,實現(xiàn)了在單堿基分辨度下的自然選擇壓力分析。相比于53個物種的比較分析,363個物種計算得到的單堿基保守位點從2.1%上升到13.2%。
“在少量物種的比較分析中,我們只能通過嚴格篩選演化速率近乎為0的基因組區(qū)域作為超保守區(qū)域,因此只能檢測出受到強烈自然選擇的基因組區(qū)域。而高覆蓋度的物種比較分析可以極大提高對基因組選擇壓力的檢測靈敏度,以鳥類現(xiàn)有數據來看,我們可以在低于中性演化水平50%左右的演化速率下即可檢測出受到自然選擇的區(qū)域?!盉10K項目發(fā)起人之一、來自深圳國家基因庫、深圳華大生命科學研究院和哥本哈根大學的張國捷教授強調說,“這些區(qū)域可能在演化過程中由于在某些物種分支上提供特殊適應性功能,從而受到較弱的自然選擇壓力。因此這些區(qū)域對揭示物種類群的分化具有重要意義?!?/p>
關于萬種鳥基因組學計劃
鳥類是物種最豐富的動物群體之一,它們幾乎出現(xiàn)在世界上的每一個棲息地。它們是第五次物種大滅絕后幸存下來的唯一的恐龍譜系,在適應性大爆發(fā)后演化出超過10500個物種,展現(xiàn)出多樣的生態(tài)、形態(tài)和行為特征。在全基因組數據中,我們不僅可以找到物種演化歷程的印記,也可以基于此來預示物種的適應潛能。
萬種鳥基因組學計劃旨在構建所有現(xiàn)生約10500種鳥類的基因組圖譜,該項目由深圳國家基因庫、中國科學院、哥本哈根大學、史密森博物館、深圳華大生命科學研究院以及洛克菲勒大學共同主導。
目前發(fā)表的研究成果是該計劃第二階段科級別的最新研究成果??蒲袌F隊從現(xiàn)存鳥類的科階元中選取一個代表性鳥類物種,共計獲得363只鳥類的全基因組數據覆蓋92%的科階元,其中267個物種的基因組數據為首次發(fā)布。
項目所使用的樣品主要來源于全球多個博物館所保存的鳥類組織樣品。其中美國史密森博物館、丹麥自然博物館和路易斯安那州立大學自然博物館為該項目貢獻了大部分樣品。這使得研究團隊能夠對一些稀有的和瀕危的鳥類物種進行基因組測序,這將為物種保育提供重要的基因組資源。本研究中,首次發(fā)布的267個物種基因組使用華大基因自主研發(fā)的BGISEQ-500平臺測序完成。
相關論文信息
https://www.nature.com/articles/s41586-020-2873-9
https://www.nature.com/articles/s41586-020-2871-y
編輯:李麗


本文系作者 @華大集團 授權發(fā)布在 肽度TIMEDOO。未經許可,禁止轉載。