Gordon等人運(yùn)用長讀長測(cè)序技術(shù)提高了我們的近親大猩猩基因組數(shù)據(jù),文章發(fā)表在4月1日的Science上。從一個(gè)單個(gè)的個(gè)體減少了裝配的片斷并恢復(fù)了以前遺漏的基因和非編碼基因位點(diǎn)。
|
準(zhǔn)確的基因序列和基因組的裝配是我們理解進(jìn)化和遺傳變異的關(guān)鍵。盡管短讀測(cè)序技術(shù)的進(jìn)步已經(jīng)降低了成本和提高了輸出量。因?yàn)榇嬖谥貜?fù)的基因,哺乳動(dòng)物基因組的全基因組組裝仍然是個(gè)問題。
大猩猩是人類除了黑猩猩之外的又一近親,在研究人類進(jìn)化起源以及進(jìn)化方面有著重要的作用。獲得完整的、非人靈長類動(dòng)物的高質(zhì)量基因組也將幫助我們了解人類生物學(xué)。Gordon等人運(yùn)用長讀長測(cè)序技術(shù)提高了我們的近親大猩猩基因組數(shù)據(jù),文章發(fā)表在4月1日的Science上。從一個(gè)單個(gè)的個(gè)體減少了裝配的片斷并恢復(fù)了以前遺漏的基因和非編碼基因位點(diǎn)。從其它大猩猩的短序列拼接有助于構(gòu)建一個(gè)記錄了遺傳差異的大猩猩群體序列。和人類基因組相比發(fā)現(xiàn)了從一到上千個(gè)堿基的種和種之間的差異,包括一些影響基因調(diào)控的差異。
這項(xiàng)研究的目標(biāo)是利用單分子的、實(shí)時(shí)(SMRT)測(cè)序技術(shù)和一種新的組裝算法來測(cè)序和裝配西部低地大猩猩的基因組,從長(> 10 kbp)序列中獲得優(yōu)勢(shì)。研究人員特別比較了本程序集的大猩猩基因組組件和通過使用更常規(guī)的短序列讀取的方法獲得的數(shù)據(jù)集的屬性,以確定長期讀基因組組裝的值和生物的影響。
研究結(jié)果
該研究從名叫Susie的西地大猩猩分離的外周血DNA產(chǎn)生了74.8倍的SMRT全基因組鳥槍序列。運(yùn)用弦圖(string graph)裝配方法 和 Falcon的一致性算法產(chǎn)生了9.6Mbp的N50的重疊群和1個(gè)3.1 Gbp的拼接。從其它6只大猩猩基因組的短讀長序列也被拼接以減少缺失位點(diǎn)的錯(cuò)誤和最后組裝的準(zhǔn)確性。
大約98.9%的大猩猩常染色體基因組被組裝成1854個(gè)序列重疊群。拼接顯示了在重疊群方面的提高:相對(duì)于發(fā)表的大猩猩基因組800倍的覆蓋,相對(duì)于剛剛升級(jí)的大猩猩基因裝配群180倍的覆蓋。大多數(shù)的序列間隙現(xiàn)在已經(jīng)填上,可靠的提高了全基因組模型的產(chǎn)量。估計(jì)87%的缺失外顯子和94%的不完整基因被修復(fù)。
研究人員發(fā)現(xiàn)大多數(shù)最長見的重復(fù)序列全長已被解決,在GC豐富的反轉(zhuǎn)錄轉(zhuǎn)座子有最顯著的收益。盡管是復(fù)雜的區(qū)域比如主要的組織相容性基因位點(diǎn)也能精確地測(cè)序和組裝。但是異染色體和高密度重復(fù)片段還不行,因?yàn)樽x長還沒有長到足以跨越這些重復(fù)結(jié)構(gòu)。
長的讀長裝配降低到50個(gè)bp長度的結(jié)構(gòu)性差異產(chǎn)生更精細(xì)的圖譜,促進(jìn)在人和猩猩譜系的分歧中,數(shù)千個(gè)譜系特定結(jié)構(gòu)差異。這包括了兩個(gè)物種間特定基因的破壞和預(yù)測(cè)的調(diào)控區(qū)域的丟失。研究表明,使用新的大猩猩基因組裝配群改變了估計(jì)的分歧和多樣性,對(duì)以前的群體遺傳推論導(dǎo)致微妙但實(shí)質(zhì)性的影響,如物種瓶頸的時(shí)間和有效種群規(guī)模在進(jìn)化過程中的變化。
結(jié)論
通過長讀數(shù)數(shù)據(jù)產(chǎn)生的基因組拼接群為基因含量、結(jié)構(gòu)變異和重復(fù)生物學(xué)提供了更完整的圖譜,提高了全體基因組和進(jìn)化的理論。長讀長測(cè)序技術(shù)變得很實(shí)用,使得個(gè)別實(shí)驗(yàn)室能產(chǎn)生高質(zhì)量的參考基因組合復(fù)雜的哺乳動(dòng)物基因組。該方法為常規(guī)的哺乳動(dòng)物基因組接近現(xiàn)在的人類基因組的質(zhì)量提供了一個(gè)路徑。