壓縮并不是一個新概念,但隨著存儲需求的增長,它正成為數(shù)據(jù)中心中更重要的工具。目標當然是使用比原始數(shù)據(jù)更少的位對信息進行編碼,從而減小數(shù)據(jù)的大小。計算效率優(yōu)勢還體現(xiàn)在需要移動的數(shù)據(jù)更少。
有兩種不同類型的壓縮:
1. 有損,最適合 mp3、jpeg - 通常用于音頻或視頻流應(yīng)用
2. 無損,例如在 zip 文件中使用 - 其中所有數(shù)據(jù)必須可供應(yīng)用程序使用
對于這兩種類型,都有多種壓縮技術(shù)可用。一些最常見的包括:
? 匹配查找:在這種技術(shù)中,算法在數(shù)據(jù)集中查找冗余,如重復(fù)的字節(jié)串,并存儲冗余數(shù)據(jù)的單個副本。通過將數(shù)據(jù)字符串的其他匹配項替換為對要讀取的存儲副本位置的引用來減少數(shù)據(jù)量。
?熵編碼:該技術(shù)在看似任意的數(shù)據(jù)序列中查找模式,并分配一個符號或編碼一個值來表示隨機數(shù)據(jù)集中的重復(fù)模式。通過將重復(fù)模式替換為單個值來減小數(shù)據(jù)的大小。
? 模型壓縮:這種先進的技術(shù)針對需要巨大計算能力和昂貴的高速 GPU 才能運行的機器學(xué)習(xí)模型和 AI 應(yīng)用程序。為了在小型嵌入式系統(tǒng)上傳輸和處理復(fù)雜的神經(jīng)網(wǎng)絡(luò)算法,通過刪除冗余的神經(jīng)網(wǎng)絡(luò)連接或?qū)⑸窠?jīng)網(wǎng)絡(luò)權(quán)重和偏差捆綁到集群中來壓縮機器學(xué)習(xí)模型,從而減少要存儲的數(shù)據(jù)的總大小。
重復(fù)數(shù)據(jù)刪除或重復(fù)數(shù)據(jù)刪除(與匹配查找壓縮技術(shù)一樣)會刪除重復(fù)的數(shù)據(jù)副本,以便僅存儲一個副本。它通常用于存儲設(shè)備的上下文或數(shù)據(jù)中心的系統(tǒng)級別,您可以在其中找到存儲的共享文件的單個副本,并且每次由其他用戶使用該文件時,對該副本的引用數(shù)量都會遞增。dedup 的優(yōu)點是它可以對大型數(shù)據(jù)集(例如整個存儲集群)使用相同的匹配查找壓縮算法,并減少存儲需求。
許多存儲系統(tǒng)同時支持壓縮和重復(fù)數(shù)據(jù)刪除,以最大化存儲容量。除了節(jié)省存儲容量外,壓縮還可以提高系統(tǒng)性能。最基本的原則是通過寫入更少的數(shù)據(jù),數(shù)據(jù)總線利用率增加,從而提高寫入帶寬和性能。
壓縮率是未壓縮數(shù)據(jù)的大小除以壓縮數(shù)據(jù)的大小。未壓縮數(shù)據(jù)的壓縮率為 1。壓縮比越高,數(shù)據(jù)的壓縮程度就越高。這在使用昂貴閃存的SSD應(yīng)用中非常重要,因為寫入數(shù)據(jù)所涉及的架構(gòu)必須擦除閃存單元才能重新編程,以及可用的程序和擦除周期數(shù)有限的介質(zhì)的性質(zhì)。在 Flash 操作中,擦除只能在塊級別進行,而編程是在頁面級別完成的,導(dǎo)致擦除和重寫的閃存部分比任何新數(shù)據(jù)所需的要大。閃存中不需要更新但正在擦除以允許傳入頁面寫入操作的部分必須存儲在其他位置,并且必須更新對此數(shù)據(jù)的所有引用以供將來訪問。SSD 上對閃存存儲的所有寫入的這種乘數(shù)效應(yīng)增加了實際閃存寫入操作與來自主機的傳入數(shù)據(jù)寫入請求的比率。此比率最小值為 1,寫入放大比率越高,啟動的程序和擦除周期就越多,從而耗盡 SSD 的整體耐用性。通過壓縮數(shù)據(jù)的原始大小,可以將較小大小的數(shù)據(jù)集存儲在閃存中,寫入放大因子小于1,從而減少編程和擦除周期,并延長SSD的使用壽命。
基準壓縮率和性能的最常見的壓縮測試機構(gòu)或語料庫是卡爾加里語料庫,坎特伯雷語料庫和西里西亞語料庫。西里西亞是最新的,它利用涵蓋當今用例的更新數(shù)據(jù)集。附表說明了PCIe Gen-4 Flashtec NVMe3016企業(yè)級NVMe SSD控制器在測試下的性能。
壓縮比是通過專用壓縮引擎實現(xiàn)的,該引擎符合無損算法的 Deflate 壓縮數(shù)據(jù)格式規(guī)范 (RFC-1951),具有簡化的內(nèi)部格式 (zlib)。
? 數(shù)據(jù)格式基于塊,如果未對齊,則進行填充
? 壓縮和未壓縮的數(shù)據(jù)塊大小可配置為 32B-8KB,使用 SGL 時最高配置為 64KB
結(jié)合 SHA-256 哈希引擎、高 CPU 處理能力以及 NVMe3106 控制器的高級靈活可編程架構(gòu),用戶可以自定義其 SSD 固件,以使用各種硬件旋鈕實現(xiàn)最有效的壓縮方案,以滿足其應(yīng)用需求。
作為企業(yè)級NVMe SSD控制器市場的行業(yè)領(lǐng)先支持解決方案,F(xiàn)lashtec NVMe3016 NVMe SSD控制器支持創(chuàng)新的存儲解決方案,基于高度靈活和可編程的控制器平臺,提供高性能,低成本和電源效率。硬件壓縮只是使 Flashtec? 產(chǎn)品成為未來數(shù)據(jù)中心企業(yè)級 NVMe SSD 的正確解決方案的眾多功能之一。
審核編輯:郭婷
-
控制器
+關(guān)注
關(guān)注
112文章
16362瀏覽量
178072 -
SSD
+關(guān)注
關(guān)注
21文章
2862瀏覽量
117429 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4778瀏覽量
72129
發(fā)布評論請先 登錄
相關(guān)推薦
評論