MLCommons,一個(gè)致力于推動(dòng)全球 AI系統(tǒng)發(fā)展的頂級(jí)工程聯(lián)盟,匯聚了包括谷歌、斯坦福大學(xué)在內(nèi)的眾多頂尖企業(yè)和研究機(jī)構(gòu)。作為該聯(lián)盟的創(chuàng)始成員之一,浪潮信息自2020年起便積極參與其中,共同探索AI技術(shù)的無限可能。近日,在MLCommons的子項(xiàng)目MLPerf Storage v1.0性能基準(zhǔn)評(píng)測中,浪潮信息再度展現(xiàn)了在AI存儲(chǔ)領(lǐng)域的卓越實(shí)力。
MLPerf Storage v1.0評(píng)測旨在全方位考量AI系統(tǒng)在端、邊、云等場景下的訓(xùn)練、推理、存儲(chǔ)及安全性能。此次評(píng)估分為封閉賽道和公開賽道兩大類別。浪潮信息此次選擇了封閉賽道,要求嚴(yán)格遵循既定配置和代碼規(guī)范,以確保所有提交結(jié)果的公平性和可比性,在既定規(guī)則下更能客觀真實(shí)地展現(xiàn)產(chǎn)品的實(shí)際能力。公開賽道允許在基準(zhǔn)測試和存儲(chǔ)系統(tǒng)配置方面有更多的靈活性,以展示對(duì)AI/ML社區(qū)有益的新方法或新功能。
MLPerf Storage v1.0工具是一個(gè)開源工具,可以從Github平臺(tái)下載。該工具允許所有廠商加入Storage社區(qū),發(fā)表見解,提出發(fā)現(xiàn)的問題和改進(jìn)意見。在此次測試中,浪潮信息率先發(fā)現(xiàn)了測試負(fù)載CosmoFlow模型提交規(guī)則標(biāo)準(zhǔn)的問題(GPU利用率實(shí)際達(dá)不到90%)。通過多次橫向交流和社區(qū)溝通,浪潮信息得到了Micron、NVIDIA等多家廠商的積極響應(yīng),最終推動(dòng)了社區(qū)對(duì)CosmoFlow模型提交規(guī)則的修改(GPU利用率要求降至70%)。這一舉措不僅體現(xiàn)了浪潮信息在測試過程中的積極參與,也展示了其作為國內(nèi)參與該社區(qū)工具構(gòu)建的先驅(qū)廠商的實(shí)力。
值得一提的是,MLPerf Storage v1.0評(píng)估采用了三種具有代表性的測試模型,分別是圖像分割領(lǐng)域的3D-UNet模型(平均文件大小146M,采用NPZ格式)、HPC領(lǐng)域的CosmoFlow模型(平均文件大小2.2M,采用TFRecord格式)以及圖像分類領(lǐng)域的ResNet50模型(平均文件大小百KB,采用TFRecord格式)。這些測試模型的選擇,不僅全面覆蓋了AI應(yīng)用的主要場景,也確保了評(píng)估結(jié)果的客觀性和準(zhǔn)確性。
核心概念
模擬加速器:通過引入非真實(shí)的GPU/TPU等加速器,為測試者提供了一個(gè)無需實(shí)際硬件加速器的測試環(huán)境,旨在降測試成本、保證公平性的同時(shí),提升測試效率。(本次社區(qū)提供模擬加速器H和模擬加速器A)。
加速器利用率(Accelerator Utilization ,AU):衡量模擬加速器在基準(zhǔn)測試過程中利用效率的關(guān)鍵指標(biāo),其計(jì)算公式為:
主機(jī)節(jié)點(diǎn)(Host Node):即客戶端,是運(yùn)行MLPerf存儲(chǔ)基準(zhǔn)代碼的機(jī)器,類似于AI訓(xùn)練集群中搭載GPU的計(jì)算服務(wù)器。主機(jī)節(jié)點(diǎn)的性能與配置對(duì)存儲(chǔ)系統(tǒng)的測試結(jié)果具有重要影響。
提交規(guī)則
MLPerf Storage的提交規(guī)則旨在確保測試結(jié)果的統(tǒng)一性和可比性。主要規(guī)則包括:
前置條件(單主機(jī)提交規(guī)則):所有提交結(jié)果必須滿足AU在3D-UNet和ResNet50上達(dá)到90%,在CosmoFlow上達(dá)到70%及以上。同時(shí),禁止使用主機(jī)節(jié)點(diǎn)緩存。
多主機(jī)提交規(guī)則:在多主機(jī)測試環(huán)境中,每個(gè)主機(jī)節(jié)點(diǎn)的模擬加速器數(shù)量必須一致,且所有主機(jī)的測試運(yùn)行參數(shù)也必須保持一致。
從 MLPerf Storage的基本概念和提交規(guī)則來看,社區(qū)致力于通過統(tǒng)一標(biāo)準(zhǔn)和減少變量來確保測試結(jié)果的統(tǒng)一、公正和可評(píng)估性。然而,在實(shí)際測試中,仍存在兩個(gè)難以統(tǒng)一的影響因素:一是存儲(chǔ)架構(gòu)的多樣性,涵蓋集中式、分布式及云端等多種形態(tài);二是存算節(jié)點(diǎn)配置非標(biāo)準(zhǔn)化,如主機(jī)與存儲(chǔ)節(jié)點(diǎn)配置不統(tǒng)一。這些因素的共同作用下,使得單一的測試指標(biāo)難以全面反映各廠商存儲(chǔ)系統(tǒng)在AI場景下的適配程度。性能,無疑是AI存儲(chǔ)的一大關(guān)鍵需求。浪潮信息在MLPerf Storage v1.0基準(zhǔn)測試中取得5項(xiàng)性能全球第一,單節(jié)點(diǎn)性能達(dá)到120GB/s,充分展示了在AI存儲(chǔ)性能測試領(lǐng)域的領(lǐng)先優(yōu)勢。然而,若僅將存儲(chǔ)帶寬作為評(píng)估標(biāo)準(zhǔn),采用如Vdbench、FIO等專業(yè)存儲(chǔ)測試軟件即可滿足需求,無需借助MLPerf Storage這類針對(duì)AI場景的基準(zhǔn)測試工具。事實(shí)上,AI對(duì)存儲(chǔ)的需求遠(yuǎn)不止于產(chǎn)品性能本身,而是要求整體解決方案能夠高度適配AI應(yīng)用場景。那么,如何科學(xué)衡量一套存儲(chǔ)系統(tǒng)是否適合AI場景呢?基于MLPerf Storage的提交規(guī)則,我們不妨回歸AI存儲(chǔ)的本質(zhì)——即最大限度提升客戶端資源利用,減少資源浪費(fèi),以支撐更多的GPU計(jì)算。
MLPerf Storage的核心要求聚焦于兩大要素:一是加速器利用率(AU)需達(dá)到90%或70%以上;二是“最大加速卡數(shù)”,即在固定AU閾值下,存儲(chǔ)系統(tǒng)所能支撐的單節(jié)點(diǎn)最大加速卡數(shù)及多節(jié)點(diǎn)下每個(gè)客戶端的最大加速卡數(shù)。這里的“最大”不僅意味著帶寬要高,同時(shí)要求時(shí)延要低。在計(jì)算節(jié)點(diǎn)提供固定網(wǎng)絡(luò)帶寬的條件下,時(shí)延的降低意味著在相同時(shí)間內(nèi)能夠供給的數(shù)據(jù)量增多,從而支持更多的加速卡。
在客戶端與存儲(chǔ)側(cè)網(wǎng)絡(luò)連接帶寬一定的情況下,單次IO時(shí)延的降低將直接導(dǎo)致每秒鐘能夠提供的文件數(shù)量增多,進(jìn)而提升客戶端實(shí)際表現(xiàn)的帶寬。由于主機(jī)節(jié)點(diǎn)提供的網(wǎng)絡(luò)帶寬存在理論上限,因此,在存儲(chǔ)集群吞吐量略大于客戶端網(wǎng)絡(luò)總帶寬的情況下,既要確保AU在90%以上,又要盡可能跑滿每個(gè)客戶端的理論帶寬,以實(shí)現(xiàn)最佳存儲(chǔ)性能。
然而,在實(shí)際應(yīng)用中,由于軟硬件開銷的存在,客戶端網(wǎng)絡(luò)往往難以完全跑滿。因此,在AU達(dá)到90%的條件下,盡可能提高主機(jī)節(jié)點(diǎn)帶寬的利用率,成為最大化計(jì)算資源、避免網(wǎng)絡(luò)資源浪費(fèi)的關(guān)鍵。這實(shí)際上就涉及到了主機(jī)節(jié)點(diǎn)網(wǎng)絡(luò)利用率的計(jì)算,其公式為:
鑒于各廠商解決方案中主機(jī)節(jié)點(diǎn)連接存儲(chǔ)節(jié)點(diǎn)的網(wǎng)絡(luò)理論帶寬是固定的,我們可以將所有廠商的解決方案歸一化到網(wǎng)絡(luò)利用率這一指標(biāo)上,從而在不考慮存算配置差異的情況下,對(duì)各廠商解決方案的表現(xiàn)進(jìn)行客觀分析。以3D-UNet加速器H多客戶端下的測試結(jié)果為例,通過整理各廠商的測試結(jié)果,我們得到了該模型下的網(wǎng)絡(luò)利用率數(shù)據(jù):
從結(jié)果來看,在AU達(dá)到90%以上時(shí),浪潮信息本次提交的解決方案在網(wǎng)絡(luò)利用效率方面表現(xiàn)出色,達(dá)到了72%,相比之下,其他供應(yīng)商的解決方案整體網(wǎng)絡(luò)利用率僅維持在50%左右,這直接導(dǎo)致了大量網(wǎng)絡(luò)資源的閑置。尤其在客戶端配置雙網(wǎng)卡情境下,實(shí)際利用率僅為50%左右,意味著整套方案實(shí)質(zhì)上浪費(fèi)了近乎一整張網(wǎng)卡資源,大大增加了總體成本。若在大模型訓(xùn)練的萬卡集群下,僅網(wǎng)卡資源的浪費(fèi)就高達(dá)數(shù)千萬級(jí)別,更不必說設(shè)備擴(kuò)容所引發(fā)的算力利用率下降、連接線增加、運(yùn)維復(fù)雜度提升等連鎖成本效應(yīng)。對(duì)于本就成本高昂的AI基礎(chǔ)設(shè)施(AI Infra)而言,任何可以削減的開支都顯得尤為關(guān)鍵。此時(shí),不同存儲(chǔ)解決方案下的網(wǎng)絡(luò)利用率便成為衡量成本效益的核心指標(biāo)——網(wǎng)絡(luò)利用率越高,成本支出越低,算力潛能得以更充分釋放,存儲(chǔ)與AI應(yīng)用場景的契合度也越高。通過AI存儲(chǔ)基準(zhǔn)測試展現(xiàn)存儲(chǔ)對(duì)整個(gè)計(jì)算集群的支撐能力,這也是符合MLPerf Stortage作為AI測試基準(zhǔn),為ML/AI模型開發(fā)者選擇存儲(chǔ)解決方案提供權(quán)威參考的創(chuàng)立初衷。
進(jìn)一步以3D-UNet加速器H單客戶端測試為例,我們發(fā)現(xiàn),即便在單客戶端場景下,存儲(chǔ)集群的總帶寬依然超越了單客戶端的帶寬需求。浪潮信息的單客戶端網(wǎng)絡(luò)利用率依然保持在70%以上,實(shí)現(xiàn)了對(duì)雙網(wǎng)卡資源的最大化利用。
綜上所述,無論是單客戶端還是多客戶端環(huán)境,浪潮信息均能在AU超過90%的同時(shí),維持70%以上的網(wǎng)絡(luò)利用率,與AI應(yīng)用場景保持了高度的適配性。
浪潮信息與AI場景的緊密契合,主要?dú)w因于兩大核心優(yōu)勢。一是產(chǎn)品場景化定制,緊密圍繞客戶需求,從實(shí)際應(yīng)用出發(fā),提升產(chǎn)品性能,打造真正貼合AI需求的存儲(chǔ)產(chǎn)品;二是成熟的AI場景解決方案能力,精準(zhǔn)平衡客戶需求、資源分配與成本控制,通過優(yōu)化解決方案與配置,為AI場景構(gòu)建堅(jiān)實(shí)的數(shù)據(jù)支撐平臺(tái)。
解讀MLPerf Storage這一AI存儲(chǔ)評(píng)測標(biāo)準(zhǔn),其核心在于檢驗(yàn)各廠商解決方案在保持加速器利用率90%以上的前提下,能否在性能與資源利用之間找到最佳平衡點(diǎn)。測試結(jié)果顯示,在相同AU條件下,浪潮信息能夠進(jìn)一步提升網(wǎng)絡(luò)利用率,有效減少AI Infra的資源浪費(fèi)。此次權(quán)威評(píng)測不僅驗(yàn)證了浪潮信息存儲(chǔ)在AI場景下整體解決方案的實(shí)力,更彰顯了其新產(chǎn)品完全滿足AI應(yīng)用對(duì)存儲(chǔ)嚴(yán)苛要求的能力,展現(xiàn)出強(qiáng)大的市場競爭力。對(duì)于客戶而言,浪潮信息憑借定制化產(chǎn)品開發(fā)模式和成熟的存儲(chǔ)解決方案能力,提供AI存儲(chǔ)的最優(yōu)解,為產(chǎn)業(yè)AI化(AI+)提供堅(jiān)實(shí)的數(shù)據(jù)存儲(chǔ)底座。
-
存儲(chǔ)
+關(guān)注
關(guān)注
13文章
4314瀏覽量
85842 -
浪潮
+關(guān)注
關(guān)注
1文章
460瀏覽量
23863 -
AI
+關(guān)注
關(guān)注
87文章
30887瀏覽量
269065 -
MLPerf
+關(guān)注
關(guān)注
0文章
35瀏覽量
639
原文標(biāo)題:MLPerf? Storage v1.0深度解析:浪潮信息AI存儲(chǔ)性能測試的領(lǐng)先之道
文章出處:【微信號(hào):inspurstorage,微信公眾號(hào):浪潮存儲(chǔ)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評(píng)論請先 登錄
相關(guān)推薦
評(píng)論