全球數(shù)據(jù)都能存在一個咖啡杯中?一杯星巴克中杯是 354 毫升,世界人口目前七十多億,這能存的下嗎?
答案是:理論上可以。
近日,麻省理工學院(MIT)科學家研發(fā)出一種新型 DNA 存儲技術,該技術可從大規(guī)模數(shù)據(jù)庫中檢索和標記 DNA 數(shù)據(jù)文件,實現(xiàn)了將數(shù)據(jù)存儲為 DNA 形式的可能。
當?shù)貢r間 6 月 10 日,相關論文發(fā)表在 Nature Materials 上,通訊作者是 MIT 生物工程學教授馬克·巴斯(Mark Bathe)。
論文題為《在檔案文件存儲系統(tǒng)中使用布爾搜索的隨機存取 DNA 存儲器》(Random access DNA memory using Boolean search in an archival file storage system)。
這項研究意味著照片、音頻、文檔和其他文件都可存儲為 DNA 的形式,有望徹底改變?nèi)祟惔鎯?shù)據(jù)的方式。
據(jù)了解,當前全球大約有 10 萬億字節(jié)的數(shù)據(jù),大部分數(shù)據(jù)存儲在占地面積龐大的數(shù)據(jù)中心里。這些數(shù)據(jù)中心比足球場還大,光是建設和維護成本就得 10 億美元。
以 DNA 形式儲存數(shù)據(jù)的靈感來自于包含遺傳信息的 DNA 分子,該團隊認為 DNA 分子有望以極高密度去存儲大量數(shù)據(jù)信息。馬克·巴斯表示,理論上一個咖啡杯即可存儲全球所有的數(shù)據(jù)。
據(jù)悉,DNA 的密度是閃存的 1000 倍,一旦制造出 DNA 聚合物,它就不會消耗任何能量,把 DNA 寫下來之后,即可進行永久存儲。
該團隊表示,他們可將圖像和文本頁面編碼為 DNA,但是要突破從眾多 DNA 片段的混合物中挑選出所需文件,即檢索功能的技術壁壘。
據(jù)悉,研究人員以 DNA 形式存儲數(shù)據(jù)需要一種約 6 微米大的二氧化硅顆粒,然后把數(shù)據(jù)文件固定在二氧化硅顆粒中,接下來用短 DNA 序列對文件進行標記。
其中,每個顆粒都標有與文件內(nèi)容相對應的單鏈 DNA “條形碼”。用這種方法能從最多 1020 張圖像中準確提取出單個圖像。
北京大學第三醫(yī)院博士生導師、國家婦產(chǎn)疾病臨床醫(yī)學研究中心副主任李默告訴 DeepTech,這帶來的好處非常顯著,應用潛力也很巨大。
包括提高大規(guī)模數(shù)據(jù)存儲的效率、節(jié)省公共資源、極大提升信息運輸與流通速度等,還包括對諸多專業(yè)領域的促進,如以核酸為代表的生命科學在交叉學科的應用、機密信息的安全儲備、以及環(huán)境保護等。
以 DNA 形式存儲的數(shù)據(jù),先到可以放在手掌里
在數(shù)字化時代, 文本、照片或任何其他形式的信息,都是由 0 和 1 通過二進制編碼而成的。類似的,我們也可將這些信息用四種核苷酸 A、T、C、G 編碼為 DNA,例如把 G 和 C 表示為 0,A 和 T 表示為 1。
作為一種存儲介質,DNA 具有高穩(wěn)定性和高密度的優(yōu)點,高穩(wěn)定性意味著 DNA 的合成和測序比較容易,高密度指的是每個核苷酸只有兩個比特大小,即大約 1 立方納米。因此以 DNA 形式存儲的數(shù)據(jù),其體積之小甚至能放在手掌中。
但是,西湖大學特聘研究員郭天南告訴 DeepTech,目前 DNA 存儲數(shù)據(jù)的訪問速度尚遠不及硬盤,數(shù)據(jù)讀寫成本較高,該成果的優(yōu)勢在于數(shù)據(jù)存儲的穩(wěn)定性,因此較適合于冷數(shù)據(jù)。
為了考察新方法的讀取速度,MIT 團隊將 20 個不同的圖片編碼到大約 3000 個核苷酸長的 DNA 片段中,大小相當于大約 100 個字節(jié)。
這些圖片包含貓、老虎、飛機和人物照等,因此研究人員給每張圖都設置了相對應的條形碼。
當提取特定圖像時,首先需要移除 DNA 樣本,然后添加與一定的標簽,比如老虎照片對應的標簽是 “貓科動物”“橘色” 和 “野生”,貓照片對應的標簽是 “貓”“橘色” 和 “家養(yǎng)”。
研究人員用熒光、或磁性顆粒來標記這些引物(primer),為的是方便從樣本中取出、并識別對應的匹配物。這時,需要的文件就可以被刪除,而剩下的 DNA 文件毫無損傷,并能被完整地放回原處。
該檢索過程還支持布爾邏輯(Boolean algebra)搜索查詢,比如從 “總統(tǒng)和 18 世紀” 可以搜出喬治?華盛頓的結果,和我們?nèi)粘J褂玫陌俣人阉鳌⒐雀杷阉骱芟嗨啤T诟拍铗炞C階段,搜索速度是每秒 1KB,搜索速度由每個膠囊的數(shù)據(jù)大小決定。
中國科學院生物學博士、助理研究員李雷告訴 DeepTech,事實上這等于提供了一種更加便捷的檢索策略,使得我們在查找信息的時候,可以更加容易找到具體的信息點,而不是像過去那樣通過 PCR( polymerase chain reaction 聚合酶鏈反應)來在全 DNA 上進行搜索。換句話,這種新策略使得數(shù)據(jù)定位更加容易,可以針對性地提取信息。
另據(jù)悉,該團隊使用哈佛醫(yī)學院(Harvard Medical School)遺傳學和醫(yī)學教授史蒂芬?埃利奇(Stephen Elledge)開發(fā)的 10 萬個序列中的單鏈 DNA 序列作為條形碼,如果在每個文件上放置兩個這樣的標簽,就可以唯一地標記 10^10 個不同的文件,也就是 100 億。
這意味著,每個文件上有 4 個標簽,就可以唯一地標記 10^20 個文件。故此,哈佛醫(yī)學院遺傳學教授喬治?丘奇(George Church)將該成果描述為 “知識管理和搜索技術的巨大飛躍”。
目前,該團隊已成立一家名為 Cache DNA 的初創(chuàng)公司,該公司目前正在開發(fā) DNA 長期存儲技術,屆時相關技術既能用于數(shù)據(jù)的長期存儲,也可用于短期存儲。
但是,該成果仍有可優(yōu)化的空間。比如,這種新技術成本非常高昂,寫 1PB 數(shù)據(jù)(100 萬 GB)需要花費 1 萬億美元。
如果想比普通用于存儲數(shù)據(jù)的磁帶更具競爭力,該團隊認為成本還需要降低約 6 個數(shù)量級。他們認為,這預計能在 10 年或 20 年內(nèi)實現(xiàn),因為過去幾十年存儲信息的成本一直在大幅下降。
另一個主要瓶頸,是這種技術難以從其他文件中挑選出想要的文件。假設成本問題已經(jīng)解決,我們就能在 DNA 中寫入 1EB 甚至 1ZB 數(shù)據(jù),然而這時就有無數(shù)的文件、圖像或電影和其他東西,要想找到目標文件簡直就像大海撈針。
當下,人們通常使用 PCR 來檢索 DNA 文件,每個 DNA 數(shù)據(jù)文件都包含一個與特定 PCR 引物結合的序列。要想提取特定文件,就得把該引物添加到樣本中以查找和擴增所需序列。
然而,這種方法的一個缺點是引物和脫靶 DNA 序列之間可能存在串擾,導致不需要的文件被拉出。此外,PCR 檢索過程需要酶,最終會消耗池中的大部分 DNA,因為所有其他 DNA 都沒有被放大,這是能做的就是把它扔掉。
西湖大學特聘研究員郭天南告訴 DeepTech,這種新方法的優(yōu)勢主要在于克服了傳統(tǒng)方法對 PCR 擴增的依賴,減小了 PCR 擴增中可能產(chǎn)生的技術噪音。并且,這種方法盡量減小對未讀取數(shù)據(jù)的損害,即未讀取的 DNA 可以有效回收并且再次按需讀取。
針對 COVID-19 檢測、人類基因組測序等,我們迫切需要低成本、大規(guī)模存儲解決方案。如果 DNA 合成可以變得足夠便宜,那么就能可以實現(xiàn)存儲更大的文件。
另據(jù)悉,該團隊計劃將這種 DNA 封裝技術用于存儲 “冷” 數(shù)據(jù),即保存在檔案中的不經(jīng)常訪問的數(shù)據(jù)。
對此李雷認為這主要是因為 DNA 存儲技術不成熟,具體地說是 DNA 保存技術。DNA 很容易發(fā)生降解,除了會受到溫度影響,化學因素比如儲存 DNA 的溶液等都會致其發(fā)生降解,而一旦降解,這些物質就徹底成為雜亂無章的信息。此外反復訪問同樣會對 DNA 進行處理,最終導致 DNA 自身的不穩(wěn)定。
李默認為,該技術的 “數(shù)據(jù)檢索” 環(huán)節(jié)依賴于熒光激活分類,限制了數(shù)據(jù)檢索及讀取的速度與效率,因此該技術不適用于讀取 “熱數(shù)據(jù)”,即存儲后被高頻次訪問的數(shù)據(jù),并且讀取速度較傳統(tǒng)硬盤也不具備優(yōu)勢。但如日后能在這些環(huán)節(jié)有所突破,則將是另一次質的進步。
責任編輯:haq
-
數(shù)據(jù)
+關注
關注
8文章
7122瀏覽量
89355 -
存儲
+關注
關注
13文章
4343瀏覽量
86042
原文標題:一杯“咖啡”存儲全人類數(shù)據(jù)?MIT團隊把數(shù)據(jù)存到DNA里,體積小到能放手掌中 | 專家解析
文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論