導(dǎo)讀 |
數(shù)據(jù)存儲(chǔ)領(lǐng)域的變化催生了一些新的技術(shù),譬如DNA存儲(chǔ)技術(shù)。利用DNA存儲(chǔ)數(shù)據(jù)的思想自“人類基因組計(jì)劃”啟動(dòng)時(shí)萌芽,到2012年科學(xué)家首次存儲(chǔ)了700k的數(shù)據(jù),而后科學(xué)家提高到了22M,近日由微軟和華盛頓大學(xué)的研究人員創(chuàng)造了新的記錄,他們?cè)诒茹U筆芯尖還小的DNA存儲(chǔ)系統(tǒng)里完成了約200MB數(shù)據(jù)的存儲(chǔ)工作。
|
管底粉紅色物質(zhì)即DNA,少量DNA即可存儲(chǔ)大量數(shù)據(jù)
存儲(chǔ)是信息跨越時(shí)間的傳播。數(shù)據(jù)存儲(chǔ)領(lǐng)域正在發(fā)生著劇烈的變化,并且這種變化將是長(zhǎng)期的一種趨勢(shì)。隨著數(shù)據(jù)存儲(chǔ)領(lǐng)域的變化,將催生中一些新的技術(shù)改變存儲(chǔ)領(lǐng)域的發(fā)展。
從20世紀(jì)開始,信息技術(shù)發(fā)生了歷史性的進(jìn)步,“萬(wàn)物皆可數(shù)”對(duì)人類歷史具有深刻的意義。
最近,由微軟和華盛頓大學(xué)的研究人員創(chuàng)造了新的記錄,他們完成了約200MB數(shù)據(jù)的保存工作,其中包括《戰(zhàn)爭(zhēng)與和平》(Warand Peace)以及另外99部經(jīng)典文學(xué)作品。
存儲(chǔ)技術(shù)的昨天
幾千年前的巖畫、古書,以及近代的照相技術(shù)、留聲機(jī)技術(shù)、電影技術(shù)以及現(xiàn)代的硬盤光盤、磁盤陣列等技術(shù)的發(fā)明,極大豐富了我們的信息獲取渠道。隨著存儲(chǔ)需求量的急劇增加,到2020年,數(shù)據(jù)有望達(dá)到44萬(wàn)億gigabyte(GB),這已經(jīng)超出了我們現(xiàn)有的存儲(chǔ)能力,且硬盤和光存儲(chǔ)等DVD和藍(lán)光光盤,易受損傷和退化。好消息是,研究人員開發(fā)的DNA存儲(chǔ)技術(shù)可以填補(bǔ)這些缺點(diǎn)。
DNA存儲(chǔ)技術(shù)的出現(xiàn)
你身體里每個(gè)細(xì)胞的DNA(脫氧核糖核酸)都含有數(shù)不勝數(shù)的信息量。在科學(xué)家完全繪制出基因組圖譜之前,在破解核苷酸的密碼過程中,少數(shù)研究者就設(shè)想利用DNA進(jìn)行數(shù)據(jù)存儲(chǔ):利用人工合成的DNA(脫氧核糖核酸)作為存儲(chǔ)介質(zhì),存儲(chǔ)文本文檔、圖片和聲音文件等數(shù)據(jù),隨后完整讀取的技術(shù),具有高效、存儲(chǔ)量大、存儲(chǔ)時(shí)間長(zhǎng)、易獲取且免維護(hù)的優(yōu)點(diǎn)。
DNA存儲(chǔ)技術(shù)的發(fā)展
DNA是一種令人難以置信的密集存儲(chǔ)介質(zhì),每立方毫米(per cubic millimeter.)可以壓縮5.5 petabit(PB,相當(dāng)于10的15次方個(gè)二進(jìn)制數(shù)字,125000 GB)的信息。
早在2012年,哈佛大學(xué)分子生物學(xué)家George Church向DNA中寫入了一本5.34 萬(wàn)個(gè)單詞、數(shù)據(jù)量不到1MB的書,隨后將其印刷在比花粉粒還小的玻璃芯片上。
2013年,歐洲生物信息學(xué)研究所向DNA中寫入了大小為739KB的聲音、圖像和文本以及一個(gè)26s的音頻片段存儲(chǔ)了馬汀路德金(Martin Luther King)的《我有一個(gè)夢(mèng)想》(I Have a Dream)的演講稿。
今年早些時(shí)候,哈佛醫(yī)學(xué)院和一個(gè)技術(shù)團(tuán)隊(duì)(George Church也參與)報(bào)告稱,已實(shí)現(xiàn)了22MB數(shù)據(jù)的DNA編碼,包括法國(guó)無(wú)聲電影“月球旅行記”(A Trip to the Moon)。
2016年7月8日,微軟宣布,利用DNA存儲(chǔ)技術(shù)完成約200MB數(shù)據(jù)的保存,其中包括《戰(zhàn)爭(zhēng)與和平》(Warand Peace)以及另外99部經(jīng)典文學(xué)作品。
Luis Ceze語(yǔ)錄
與此同時(shí),華盛頓大學(xué)教授Luis Ceze在鞋盒大小的空間存儲(chǔ)了700 exabyte(EB,相當(dāng)于1024PB)的數(shù)據(jù)。Luis Ceze教授還表示,一個(gè)鞋盒所放的數(shù)據(jù)相當(dāng)于100個(gè)大型數(shù)據(jù)中心的存儲(chǔ)量,可以保留幾千年。此外,他們已經(jīng)發(fā)現(xiàn),猛犸象化石在猛犸象死后幾千年仍然含有動(dòng)物的遺傳密碼子,這說(shuō)明DNA信息非常耐寒,能夠在殘酷的環(huán)境中存儲(chǔ)數(shù)千年。
DNA是如何存儲(chǔ)信息的?
DNA存儲(chǔ)技術(shù)是一種基于生物分子的數(shù)據(jù)存儲(chǔ)技術(shù),是以人工合成的DNA(脫氧核糖核酸)分子為存儲(chǔ)介質(zhì),以A、C 、G、T這4種堿基對(duì)信息進(jìn)行編碼,將信息存儲(chǔ)于DNA分子中,同時(shí)利用現(xiàn)有技術(shù)實(shí)現(xiàn)DNA分子的復(fù)制和DNA分子堿基的修改等操作,從而實(shí)現(xiàn)文本文檔、圖片和聲音視頻文件等數(shù)據(jù)的存儲(chǔ)和讀取。
DNA存儲(chǔ)技術(shù)的示意圖
如上圖所示:
1)首先,研究人員把數(shù)據(jù)中諸多由“0”和“1”組成的長(zhǎng)串轉(zhuǎn)換為DNA序列的四個(gè)基本組成部分:腺嘌呤(A)、鳥嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)。
2)轉(zhuǎn)換完成后,研究人員把數(shù)據(jù)分成段,并且儲(chǔ)存到海量的人工合成的微小DNA分子中,這些分子經(jīng)脫水可以保存很長(zhǎng)時(shí)間。
3)為了便于檢索存儲(chǔ)的數(shù)據(jù),研究團(tuán)隊(duì)把類似于郵政編碼和街道地址的信息編入DNA序列,這樣就很容易找到所需數(shù)據(jù)了。
4)通過DNA測(cè)序技術(shù),研究人員可以“讀取”數(shù)據(jù)并把它轉(zhuǎn)換成原始形式,目前科學(xué)家已經(jīng)成功地對(duì)圖片數(shù)據(jù)和視頻數(shù)據(jù)進(jìn)行編碼和檢索。
值得一提的是,盡管DNA存儲(chǔ)技術(shù)是可靠的,但如同硬盤驅(qū)動(dòng)器和電子存儲(chǔ)器會(huì)發(fā)生錯(cuò)誤,DNA的寫入和讀取也可能存在錯(cuò)誤,因此科學(xué)家在這一過程中還需要制定糾錯(cuò)碼,以可靠地檢索數(shù)據(jù)。
DNA存儲(chǔ)技術(shù)的優(yōu)勢(shì)
相比傳統(tǒng)存儲(chǔ)介質(zhì),DNA是一種優(yōu)良存儲(chǔ)介質(zhì),能帶來(lái)更高的存儲(chǔ)密度和耐久性。DNA存儲(chǔ)技術(shù)是一項(xiàng)著眼于未來(lái)的具有劃時(shí)代意義存儲(chǔ)技術(shù),作為生物分子計(jì)算機(jī)領(lǐng)域的一個(gè)重要分支,它具有存儲(chǔ)密度高、硬件成本低廉、存取高度并行性、擴(kuò)充性強(qiáng)、儲(chǔ)存長(zhǎng)久性等優(yōu)點(diǎn),極有可能替代傳統(tǒng)的存儲(chǔ)系統(tǒng)。
微軟首席研究員Karin Strauss表示,由于在數(shù)字存儲(chǔ)世界里,通常是以GB或者TB來(lái)記錄。雖然200MB聽起來(lái)不是很多,但此前并沒有任何研究者能一次性向DNA寫入如此多數(shù)據(jù)。例如,2012年哈佛遺傳學(xué)家George Church將他的電子書存儲(chǔ)到DNA中,只用了700 KB的HTML文本。
微軟的愿景:盡快降低成本
盡管目前還不能使用基于DNA的硬盤存儲(chǔ)假期照片,但這個(gè)項(xiàng)目將人類帶入了存儲(chǔ)、處理海量數(shù)據(jù)的高效時(shí)代??茖W(xué)家們還嘗試儲(chǔ)存了其他類型的文件,如100多種語(yǔ)言的《世界人權(quán)宣言》,《古騰堡計(jì)劃》的前100種書籍,作物信托(Crop Trust)的種子庫(kù)以及“OK Go's This Too Shall Pass”的高清音樂視頻。
Karin Strauss還表示,目前DNA數(shù)據(jù)存儲(chǔ)一技術(shù)實(shí)現(xiàn)成本昂貴且操作復(fù)雜。微軟希望借助生物科技行業(yè)的研究成果來(lái)降低這一技術(shù)的最終成本。
知名市場(chǎng)調(diào)研機(jī)構(gòu)IDC預(yù)計(jì):科技不斷發(fā)展令數(shù)據(jù)大量涌現(xiàn),到明年全球范圍內(nèi)保存的數(shù)字化數(shù)據(jù)將達(dá)到16萬(wàn)億GB。傳統(tǒng)儲(chǔ)存介質(zhì)無(wú)法滿足龐大的數(shù)據(jù)存儲(chǔ)需求,DNA作為存儲(chǔ)介質(zhì)有望解決這一難題,生物芯片存儲(chǔ)企業(yè)迎來(lái)發(fā)展機(jī)遇。
推薦閱讀: