隨著5G、大數據、云計算、物聯網乃至AI預訓練大模型等技術的不斷演進,數字化浪潮正在推動全人類社會朝向新的文明層次快速發展。數字化永遠無法回避的一個話題就是數據存儲。有意思的是,曾經不被看好的QLC產品,竟在云計算和數據中心市場,迸發出新的活力,有望逐步成為企業級存儲主力之選……
圓周率計算迎來新的世界紀錄
前不久,StorageReview團隊在位于美國辛辛那提的實驗室中使用第四代AMD EPYC CPU和Solidigm D5-P5316 QLC SSD,進行圓周率(π)小數點后100萬億位數的計算,最終的成績成功打破世界紀錄,其速度幾乎達到此前的3倍(原紀錄由Google于去年6月創造,共運行近158 天),總運行時間縮短至59天10小時46分49.55秒。其中,基于4bit單元QLC閃存的Solidigm D5-P5316可用容量為530.1TB,測試中使用峰值為514.5TB,總讀取量為40.2 PB,寫入35.4 PB,總計數據吞吐量高達75.6 PB。該團隊負責人Beeler表示:“QLC非常適合這類工作負載。它支持突發寫入和頻繁寫入,如果我們保持每天向每個驅動器發送接近30TB的數據寫入的節奏,每年的數據寫入將超過10PBW。事實證明,QLC SSD完全可以跟上計算速度,并在單個服務器中提供巨大的存儲密度。此外,在近60天的測試中,我們發現SSD耐用性的消耗幾乎可以忽略不計。”這次的測試幾乎顛覆了絕大多數人對于QLC SSD的固有印象。
▲第四代QLC SSD在存儲密度提升的同時,還帶來了滿足散熱、邊緣化、非結構化和云端化需求等多方面的優勢和便利。
作為SSD的核心組件,NAND閃存經歷了SLC、MLC、TLC、QLC四代演進,每單元存儲數據從1bit發展到2bit、3bit、4bit。不過伴隨著每單元存儲位數增加,電壓變化也逐級遞增,而電壓頻繁切換會導致更多的錯誤和更長的擦除時間,表現出來就是寫入速度更低、壽命更短、可靠性更差。尤其是在消費級市場,多數消費者對于SSD的選擇更傾向于TLC,而非QLC。所以此次新的圓周率計算世界紀錄誕生時,Solidigm D5-P5316作為一款QLC產品的表現,尤其是對于容量、成本、性能和耐用性的兼顧,著實令人感到意外。
QLC SSD整體性能大翻身?
無獨有偶,SK海力士收購Intel NAND閃存業務重組而來的Solidigm,很快又發布了同樣基于QLC閃存的全新企業級產品P5-D5430,再次引發了“QLC取代TLC”的話題討論。據悉,P5-D5430采用大連Fab 68工廠出品的192層堆疊3D QLC閃存芯片(該廠的QLC產品占40%以上),容量從3.84TB到30.72TB不等(E1.S款最大容量為15.36TB),128K順序讀寫速度最高為7GB/s和3GB/s,4K隨機讀寫速度最高達971K IOPS和120K IOPS。而且它還具備高達90% IOPS一致性,以及大約6%的硬盤壽命可變性。簡單說就是整體的可靠性更趨于一致,讀寫表現也非常平穩。
▲D5-P5430 30.72TB容量的產品預計今年下半年量產
從Solidigm的官方數據來看,相對其舉例的企業級TLC產品,P5-D5430在順序/隨機讀取性能上已經趕超了前者,但它卻可以輕松實現更大的容量,以及最多14%的寫入壽命提升(相對固定的寫入負載下,對閃存擦寫壽命的消耗速度會隨容量上升而放緩)。也就是說,目前QLC產品唯一的弱勢之處,只剩寫入性能。而可能很多人想不到的是,QLC在企業和數據中心市場,寫入性能這一指標在存儲設備采購考量中的優先級,并沒有那么靠前。
▲QLC和TLC SSD各項性能的實例對比
Solidigm亞太區應用工程部總監翁昀表示,對于存儲設備,“除了關注性能參數,還要看一下實際的工作負載是什么樣的……一些AI模型在3年內增長了1萬倍以上,高清電影的數據量比幾年前大9倍……數據讀寫方式在更多的使用場景里還是以讀為主。幾年前我和一家互聯網公司交流過,他們主流的內容分發網絡里,讀7天,然后花一個晚上去做一些寫入,然后再讀7天,再花一個晚上寫入。在94%的企業級工作負載當中,80%是讀,20%是寫。所以TLC SSD其實對于有些工作負載而言,并非最佳選擇。”
AI時代對存儲的需求到底是什么?
事實的確如此,甚至在AI時代“讀多寫少”會表現得更加明顯。我們知道,AI業務中除了個別業務場景主要針對結構化數據進行分析外(例如消費記錄、交易記錄等風險控制、趨勢預測場景),大多數場景需要處理的是非結構化數據,例如圖像識別、語音識別、自動駕駛等,這些場景通常使用的是深度學習算法。
這也就意味著AI時代,存儲領域面臨四大挑戰。
一是容量需求。人類社會產生的數據量正在以驚人的速度增長,預計到2025年全球每天將創建約463EB數據。5G、AI、物聯網等應用源源不斷地催生了大量數據流,它們各自提出了深度數據存儲和隨機速度的要求。
二是海量小文件。由于訓練任務需要的文件數量都在幾億到十幾億的量級,所以存儲需要能承載幾十億甚至上百億的文件數量。同時,由于很多訓練模型都是依賴于圖片、音頻片段、視頻片段文件,而這些文件的大小大部分都是在幾KB到幾MB之間。
三是讀多寫少。AI環境的數據特點是讀多寫少,以視覺識別為例,它需要加載數千萬甚至上億張圖片,針對圖片使用卷積神經網絡、ResNet等算法,生成識別模型。完成一輪訓練后,為了減少圖片輸入順序的相關性對訓練結果帶來的影響,會將文件次序打亂之后,重新加載,訓練多個輪次。這就意味著每個輪次都需要根據新的順序加載數千萬乃至上億張圖片,因此對于存儲的高吞吐、低延時提出了更高的要求。
四是可靠性。比如AI業務不同環境的數據組織方式不可控,很有可能用戶會將大量文件存放在同一個目錄,容易導致多個計算節點在訓練過程中同時讀取這一批數據,這個目錄所在的元數據節點就會成為熱點。那么目錄熱點讀取的可靠性,存儲介質在讀取狀態下的均衡性和平穩性就需要有所保障。
QLC產品總體擁有成本的巨大優勢
其實一言以蔽之,大數據時代,或者說企業的數字化轉型或是AI業務發展等多種需求下,多數場景存儲的工作負載都處于“讀多寫少”的狀態。在大部分場景中,如預訓練任務只讀取文件,中間很少產生中間數據,即使產生了少量的中間數據,也是會選擇寫在本地,很少選擇寫回存儲集群。Solidigm援引相關數據指出,2020~2023年全球范圍出貨的數據中心級SSD,大約85%的每日全盤寫入次數(DWPD)還不到1,甚至大多數SSD都不會有DWPD的評級。
▲對比全TLC陣列,以D5-P5430組成的7PB存儲方案總體擁有成本更低。
此外,Solidigm D5-P5430產品具備U.2 15mm、E1.S 9.5mm和E3.S 7.5 mm等多種接口規格,最大容量達到30.72TB(將于年末推出),可以憑借大容量低成本的優勢,更好地滿足非結構化數據存儲的需求。對比7PB全TLC陣列對象存儲解決方案,它可以直接縮減一半的固態硬盤和服務器需求,降低18%的電力成本和33.3%的機架占地面積,功率密度提升26%,企業總體擁有成本降低27%。至于混合陣列方案,D5-P5430相對應的優勢則更加顯著,總體擁有成本降低多達39%。Solidigm亞太區銷售總監倪錦峰還透露,“可持續性方面,HDD的年失效率現在是很高的,差不多在3%左右,這會導致后續廢物處理的很多挑戰,但是我們的SSD承諾的年失效率是0.44%,實際使用要比這個值低很多。也就是說(使用我們的QLC SSD)除了能減輕運維壓力,后續廢棄物處理的麻煩也會少很多。”
▲對比HDD+TLC SSD陣列的話,QLC整體成本優勢更加突出。
寫在最后
隨著5G、大數據、云計算、物聯網和AI技術的快速發展,數字化變革浪潮已是席卷各行各業,數據生成和存儲需求呈現指數級增長態勢,這也使得存儲技術必須不斷發展才能跟上新的工作負載和需求轉變。在QLC SSD剛推出的時候,許多存儲廠商都將首發目標對準了企業級市場,而不是消費級,原因就在于3D NAND技術通過堆棧更高的層數,可以輕松實現更大的存儲密度,因此QLC顆粒的優勢更適合大容量數據盤。
而如今通過最新的QLC產品,我們看到除了在帶寬、讀取性能、整體可靠性和耐用性等核心性能方面,QLC SSD在部分表現上已經追上TLC產品,還憑借著更高的存儲密度,可以輕松實現容量和成本上的優勢。對于需要平衡性一切因素和性價比的企業級市場來說,QLC產品無疑是更好的選擇。因此,我們也看到包括京東、阿里、聯想、戴爾在內的一眾科技巨頭,都已經開始成規模地選用QLC產品。而隨著SSD糾錯技術的不斷迭代,QLC的可靠性也會越來越高,甚至我們可以期待,如果未來QLC產品在價格上與TLC拉開足夠的差距之后,QLC會真正迎來逆天改命的新局面,在消費市場也唱響屬于它的主旋律。
-
SSD
+關注
關注
21文章
2911瀏覽量
118342 -
固態硬盤
+關注
關注
12文章
1480瀏覽量
57721 -
大模型
+關注
關注
2文章
2794瀏覽量
3438
原文標題:QLC固態硬盤將成企業新寵!和Solidigm高管探討未來企業級存儲發展趨勢
文章出處:【微信號:Microcomputer,微信公眾號:Microcomputer】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
存儲上行,又一家廠商進軍企業級/汽車級賽道
Solidigm與博通續簽主控供應協議,共筑AI存儲新未來
Solidigm發布全球最大容量QLC eSSD
emc企業級存儲系統的特點
AI驅動存儲需求激增,企業級SSD市場迎來國內廠商崛起
ODCC 2024:AI存力挑戰,PTM商業模式助力企業級存儲創新實踐

評論