二十世紀(jì)以來(lái),我們的數(shù)據(jù)存儲(chǔ)方式從磁帶、軟盤和CD等介質(zhì)進(jìn)化到了能夠在無(wú)數(shù)微型晶體管中保存數(shù)據(jù)的精密半導(dǎo)體存儲(chǔ)芯片。但是,人類不斷增加的數(shù)據(jù)會(huì)對(duì)存儲(chǔ)方式帶來(lái)新的壓力,也將推動(dòng)存儲(chǔ)方式的持續(xù)變革,DNA或?qū)⒃谶@一次變革中發(fā)揮重要作用。
在摩爾定律之下,我們已經(jīng)看到硅芯片存儲(chǔ)容量呈指數(shù)級(jí)增長(zhǎng)。然而,與此同時(shí),人類產(chǎn)生新的數(shù)字信息的速度同樣呈現(xiàn)出了爆發(fā)式增長(zhǎng)狀態(tài)。截至2016年,數(shù)據(jù)用戶每天生產(chǎn)超過(guò)440億GB的數(shù)據(jù)。據(jù)IDC預(yù)測(cè),到2025年,這一數(shù)字將超過(guò)4600億GB,而全球當(dāng)年產(chǎn)生的數(shù)據(jù)總量將達(dá)到160 ZB(160萬(wàn)億GB)。
另?yè)?jù)預(yù)測(cè),到2020年全球可能會(huì)有30億到50億的全球人口接入互聯(lián)網(wǎng),這些新增的互聯(lián)網(wǎng)用戶所產(chǎn)生的數(shù)據(jù)同樣會(huì)面臨大規(guī)模的增長(zhǎng)。總之,我們或許很快就會(huì)生產(chǎn)出遠(yuǎn)超我們存儲(chǔ)能力的更多數(shù)據(jù)。雖然網(wǎng)絡(luò)服務(wù)商與各大互聯(lián)網(wǎng)公司都將從新增的數(shù)據(jù)節(jié)點(diǎn)與流量中獲利巨大,但這也會(huì)對(duì)動(dòng)則數(shù)千萬(wàn)甚至上億美元的數(shù)據(jù)中心建設(shè)帶來(lái)顯著壓力。
去年,僅美國(guó)就花費(fèi)了200億美元用于新的數(shù)據(jù)中心建設(shè),使數(shù)據(jù)中心建設(shè)的資本支出比2016年翻了一番。此外,自然界中很少有純的存儲(chǔ)器級(jí)硅元素,而研究人員預(yù)測(cè)它將在2040年被耗盡。隨著利用DNA進(jìn)行數(shù)據(jù)存儲(chǔ)的新興技術(shù)的出現(xiàn),這些問(wèn)題將會(huì)成為過(guò)去時(shí)。通過(guò)將數(shù)據(jù)編碼進(jìn)DNA的微小分子,在未來(lái),我們可以將整個(gè)數(shù)據(jù)中心放入幾瓶DNA中。
那么,什么是DNA存儲(chǔ)?DNA是由四個(gè)堿基:腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鳥嘌呤(G)的雙螺旋鏈構(gòu)建而成的。這些鏈一旦形成,就緊緊地折疊起來(lái),形成非常密集、又節(jié)省空間的數(shù)據(jù)存儲(chǔ)器。為了將數(shù)據(jù)文件編碼到這些堿基中,我們可以使用各種算法,將二進(jìn)制轉(zhuǎn)換為堿基核苷酸:也就是將0和1轉(zhuǎn)換為A、T、C、G,而“00”可以被編碼為A;“01”編碼為G,“10”編碼C,“11”編碼為T。
將數(shù)字編碼轉(zhuǎn)化為化學(xué)編碼,這就是DNA數(shù)據(jù)存儲(chǔ)最核心的奧秘。一旦編碼,則可以通過(guò)具有特定堿基模式的合成DNA來(lái)存儲(chǔ)信息,最終被編碼的序列可存儲(chǔ)在具有保質(zhì)期長(zhǎng)達(dá)數(shù)千年甚至上萬(wàn)年的小瓶子里。而從理論極限上來(lái)看,一克DNA就能存儲(chǔ)2.15億GB的數(shù)據(jù)。
但是,在目前,數(shù)據(jù)編碼的成本還非常昂貴,存儲(chǔ)速度很慢,數(shù)據(jù)讀取也難以實(shí)時(shí)。同時(shí),數(shù)據(jù)的檢索與讀取(通過(guò)基因測(cè)序儀),特別是對(duì)大型數(shù)據(jù)庫(kù)的隨機(jī)訪問(wèn)如何不出錯(cuò),也是科研機(jī)構(gòu)和大公司正在攻克的問(wèn)題。目前,華盛頓大學(xué)開(kāi)發(fā)的DNA存儲(chǔ)系統(tǒng)已經(jīng)可以實(shí)現(xiàn)隨機(jī)訪問(wèn)其系統(tǒng)中超過(guò)400M DNA編碼的數(shù)據(jù)而不出錯(cuò)。400M,看起來(lái)如此微小的數(shù)據(jù)量,則可能是通往未來(lái)大規(guī)模DNA存儲(chǔ)的一大步。
更多研究人員也已經(jīng)在研究分子計(jì)算的潛力。例如,哈佛大學(xué)的George Church教授和他的實(shí)驗(yàn)室設(shè)想在DNA中直接捕獲數(shù)據(jù)。正如Church所說(shuō):“我對(duì)制造沒(méi)有任何電子或機(jī)械部件的生物相機(jī)很感興趣”,信息可以由此“直接進(jìn)入DNA”。Church表示,DNA記錄器將自動(dòng)捕獲視聽(tīng)數(shù)據(jù)?!澳憧梢园阉嬙趬ι?,如果有什么有趣的事情發(fā)生,只需要刮掉一點(diǎn)并讀取它。這一天的到來(lái)并不會(huì)那么遙遠(yuǎn)。”
有一天,我們甚至可以記錄體內(nèi)的生物事件。為了實(shí)現(xiàn)這一目標(biāo),Church的實(shí)驗(yàn)室正在努力開(kāi)發(fā)一種完全不需要電極的體內(nèi)神經(jīng)活動(dòng)DNA記錄器。即使在我們能夠保證無(wú)誤的數(shù)據(jù)檢索與隨機(jī)訪問(wèn)之前,DNA數(shù)據(jù)存儲(chǔ)也具有直接的市場(chǎng)應(yīng)用。
當(dāng)前,大部分企業(yè)都將其歷史數(shù)據(jù)直接進(jìn)行歸檔。而隨著時(shí)間的推移,大多數(shù)數(shù)據(jù)變得不再那么重要,被快速檢索的必要性也不再那么大。這必然會(huì)造成基礎(chǔ)設(shè)施、計(jì)算能力的浪費(fèi)。反之,數(shù)據(jù)編碼的DNA可以在寒冷、黑暗和干燥的條件下保存長(zhǎng)達(dá)10000年的時(shí)間,而隨著檢索算法和生化技術(shù)的改進(jìn),跨數(shù)據(jù)編碼的DNA的隨機(jī)訪問(wèn)可能變得和點(diǎn)擊桌面上的文件一樣簡(jiǎn)單,儲(chǔ)存成本也只會(huì)是當(dāng)前模式下存儲(chǔ)成本的一小部分。
總之,DNA也許是我們手頭上最緊湊、最持久、最普遍的存儲(chǔ)機(jī)制,將為我們提供前所未有的數(shù)據(jù)存儲(chǔ)應(yīng)用,甚至是計(jì)算。此時(shí),傳統(tǒng)數(shù)據(jù)中心模式下的硅基存儲(chǔ)將是低效的。隨著DNA數(shù)據(jù)存儲(chǔ)成本的下降和速度的提高,以及用戶能夠很容易地將文件、圖像甚至神經(jīng)活動(dòng)保存到DNA中,新的商業(yè)機(jī)會(huì)將會(huì)出現(xiàn)。
這可能正是微軟公司計(jì)劃在2020年建立基于NDA的數(shù)據(jù)存儲(chǔ)系統(tǒng)的動(dòng)力所在。在此背景下,公司將可以擁有自己的數(shù)據(jù)倉(cāng)庫(kù)和本地?cái)?shù)據(jù)網(wǎng)絡(luò),以提高網(wǎng)絡(luò)安全性,尤其是重要檔案的安全性。由于DNA在沒(méi)有維護(hù)的情況下可以存續(xù)數(shù)千年,所以,你可以忘記復(fù)制數(shù)據(jù)庫(kù)和提供數(shù)字檔案的必要性。因?yàn)?,不管技術(shù)如何進(jìn)步和變化,對(duì)于我們的后代,DNA將是可以長(zhǎng)期讀取的。
但DNA存儲(chǔ)最令人興奮的應(yīng)用潛力是其便攜性。如果我們用硅二進(jìn)制介質(zhì)發(fā)送一艾字節(jié)(十億GB)的數(shù)據(jù)到火星,它可能需要耗用五艘重型獵鷹火箭,運(yùn)送成本則可能高達(dá)4.86億美元。用DNA,我們只需要五立方厘米的空間,而太空殖民的方式可能會(huì)被改寫。在整個(gè)進(jìn)化過(guò)程中,DNA已經(jīng)解開(kāi)了從人類到細(xì)菌的非凡可能性。在未來(lái),DNA會(huì)被解鎖更多,包括在極小的空間容納無(wú)限的數(shù)據(jù)。
評(píng)論
查看更多