2014年,Broad研究所和麻省總醫(yī)院的研究人員在ExAC數(shù)據(jù)庫(kù)(the Exome Aggregation Consortium,外顯子組整合數(shù)據(jù)庫(kù))中公布了約1000萬(wàn)個(gè)遺傳變異。研究人員近日描述了他們收集數(shù)據(jù)的過(guò)程,并鑒定出了3200個(gè)可能與人類(lèi)遺傳病發(fā)展相關(guān)的基因,這項(xiàng)研究8月17日發(fā)表在《Nature》上。
文章通訊作者Daniel MacArthur說(shuō),“像世界各地的許多實(shí)驗(yàn)室一樣,我的實(shí)驗(yàn)室從四年前開(kāi)始對(duì)罕見(jiàn)病患者進(jìn)行測(cè)序起就發(fā)現(xiàn),分析患者外顯子組測(cè)序數(shù)據(jù)的一個(gè)關(guān)鍵挑戰(zhàn)是,每個(gè)人都攜帶了成千上萬(wàn)個(gè)基因變異。” MacArthur是Broad研究所醫(yī)學(xué)和群體遺傳學(xué)的聯(lián)合主任,麻省總醫(yī)院和哈佛醫(yī)學(xué)院的助理教授。他表示,研究人員和臨床醫(yī)生需要數(shù)據(jù)庫(kù)告訴他們,哪些在患者中發(fā)現(xiàn)的基因變異在健康人中也出現(xiàn),以及這些基因變異有多普遍,以便研究人員根據(jù)這些信息識(shí)別那些真正導(dǎo)致疾病的基因變異。
MacArthur指出,該項(xiàng)工作突顯了數(shù)據(jù)共享的重要性,如果這項(xiàng)工作中的20多個(gè)研究小組和30多個(gè)首席研究員沒(méi)有共享數(shù)據(jù),這個(gè)項(xiàng)目就不可能完成。
研究人員收集了歐洲人、非裔美國(guó)人、東亞人、南亞人和拉美人的外顯子組測(cè)序數(shù)據(jù)。他們使用Broad研究所開(kāi)發(fā)的新版本的基因組分析工具包(GATK)HaplotypeCaller對(duì)原始數(shù)據(jù)進(jìn)行分析,識(shí)別了60702個(gè)樣本共有的一組變異。
研究人員生成了匯總文件,通過(guò)公開(kāi)訪問(wèn)的網(wǎng)站于2014年公布了這些識(shí)別的變異。自公開(kāi)以來(lái),該資源已經(jīng)被世界各地的研究人員使用了超過(guò)五百萬(wàn)次。MacArthur說(shuō),“它主要用于罕見(jiàn)病患者基因變異的解讀中,如今幾乎所有的臨床診斷實(shí)驗(yàn)室都在使用ExAC資源作為診斷罕見(jiàn)病患者的標(biāo)準(zhǔn)資源庫(kù)。”
在他們的新研究中,研究人員過(guò)濾并分析了ExAC數(shù)據(jù)庫(kù)的數(shù)據(jù),來(lái)計(jì)算序列變異致病性的客觀指標(biāo),并鑒定經(jīng)受住各類(lèi)突變的強(qiáng)力選擇的基因。
MacArthur解釋?zhuān)瑪?shù)據(jù)庫(kù)中的健康人能幫助研究者鑒定出耐受變異的基因,進(jìn)而縮小范圍,更容易地找到導(dǎo)致遺傳病如肌肉萎縮癥或癲癇的基因。
MacArthur說(shuō),“我們利用這個(gè)資源,總共找出了3000多個(gè)基因最有可能與疾病相關(guān)。但是其中超過(guò)2/3的基因還沒(méi)有與具體的疾病關(guān)聯(lián)起來(lái)。”
另外,MacArthur和他的團(tuán)隊(duì)發(fā)現(xiàn),近200個(gè)被報(bào)道導(dǎo)致疾病的基因變異在ExAC數(shù)據(jù)庫(kù)中太常見(jiàn)了而不可能與疾病相關(guān)。他說(shuō),“它們是由于錯(cuò)誤進(jìn)入數(shù)據(jù)庫(kù)的無(wú)害變異,我們應(yīng)該使用這個(gè)資源來(lái)糾正這類(lèi)錯(cuò)誤。”
研究人員表示,盡管ExAC數(shù)據(jù)庫(kù)幾乎是以前資源的十倍大,且包含了相當(dāng)多的多樣性,但它還不能代表全球的人口。MacArthur說(shuō),他們鑒定出的可能與遺傳病相關(guān)的基因可以?xún)?yōu)先用在下游的研究中。
參考文獻(xiàn):Analysis of protein-coding genetic variation in 60,706 humans. Nature, doi:10.1038/nature19057