在10月29日由中國(guó)電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會(huì)舉辦的數(shù)據(jù)存儲(chǔ)專業(yè)委員會(huì)(簡(jiǎn)稱“數(shù)據(jù)存儲(chǔ)專委會(huì)”)成立大會(huì)上,匯聚了產(chǎn)業(yè)界代表、專委會(huì)成員及多位院士專家,共逾百人,共同探討了數(shù)據(jù)存儲(chǔ)產(chǎn)業(yè)的發(fā)展,并見(jiàn)證了數(shù)據(jù)存儲(chǔ)專業(yè)委員會(huì)的正式成立。會(huì)上,中國(guó)工程院院士、數(shù)據(jù)存儲(chǔ)專委會(huì)名譽(yù)會(huì)長(zhǎng)鄭緯民發(fā)表了題為“AI存儲(chǔ):人工智能大模型的基石”的主旨演講。
鄭緯民院士指出,人工智能進(jìn)入大模型時(shí)代展現(xiàn)出兩大特征:一是基礎(chǔ)大模型邁入多模態(tài)時(shí)代,實(shí)現(xiàn)了從單一文本到圖片、視頻等多模態(tài)信息的綜合應(yīng)用;二是大模型已在金融、醫(yī)療、智能制造等多個(gè)領(lǐng)域得到實(shí)際應(yīng)用。
針對(duì)大模型的四個(gè)關(guān)鍵環(huán)節(jié),鄭緯民院士詳細(xì)闡述了存儲(chǔ)在大模型訓(xùn)練和推理應(yīng)用中所面臨的挑戰(zhàn)及相關(guān)技術(shù):
首先,數(shù)據(jù)獲取階段,大模型訓(xùn)練需要海量的原始數(shù)據(jù),這些數(shù)據(jù)需被存儲(chǔ)設(shè)備妥善保存。隨著大模型從單模態(tài)向多模態(tài)發(fā)展,產(chǎn)生了數(shù)以百億計(jì)的小文件,這對(duì)文件系統(tǒng)的目錄擴(kuò)展性、讀寫速度以及存儲(chǔ)的低延遲和高可擴(kuò)展性提出了更高要求。
其次,數(shù)據(jù)預(yù)處理階段,由于原始數(shù)據(jù)質(zhì)量參差不齊,存在大量重復(fù)和低質(zhì)量數(shù)據(jù),因此需要進(jìn)行預(yù)處理以提升數(shù)據(jù)質(zhì)量。以ChatGPT4級(jí)別的大模型為例,其訓(xùn)練過(guò)程可能需要1萬(wàn)塊A100顯卡耗時(shí)11個(gè)月,其中數(shù)據(jù)預(yù)處理可能占據(jù)一半以上的時(shí)間,這與數(shù)據(jù)存儲(chǔ)的性能密切相關(guān)。
再次,模型訓(xùn)練階段,大規(guī)模訓(xùn)練系統(tǒng)(如10萬(wàn)塊顯卡組成的系統(tǒng))的可靠性難以保證,頻繁出現(xiàn)故障,導(dǎo)致集群可用度低下。為了快速恢復(fù)訓(xùn)練,需要依賴高性能的存儲(chǔ)系統(tǒng)來(lái)快速讀取CheckPoint數(shù)據(jù)。華為與清華大學(xué)MADSys實(shí)驗(yàn)室聯(lián)合開發(fā)的高性能AI存儲(chǔ)系統(tǒng)在此方面表現(xiàn)出色,曾在國(guó)際權(quán)威機(jī)構(gòu)MLPerf Storage基準(zhǔn)評(píng)測(cè)中獲得第一名,性能密度是第二名的兩倍。
最后,模型推理階段,這是與AI應(yīng)用最直接相關(guān)的環(huán)節(jié)。更高效的人工智能需要處理更多數(shù)據(jù)、使用更大模型以及更長(zhǎng)的上下文窗口,但這同時(shí)也帶來(lái)了極重的推理負(fù)載。模型參數(shù)以及推理過(guò)程中產(chǎn)生的KV-Cache需要巨大的存儲(chǔ)空間。為此,國(guó)內(nèi)優(yōu)秀的大模型應(yīng)用Kimi與清華大學(xué)MADSys實(shí)驗(yàn)室共同推出了Mooncake分離式推理架構(gòu),通過(guò)保存共享的KV-Cache,采用以存換算的策略大幅提升系統(tǒng)吞吐。
鄭緯民院士強(qiáng)調(diào),模型推理過(guò)程是一個(gè)復(fù)雜的存儲(chǔ)系統(tǒng)工程,關(guān)鍵在于存儲(chǔ)容量大、傳輸速度快以及性價(jià)比高。清華大學(xué)MADSys實(shí)驗(yàn)室聯(lián)合華為數(shù)據(jù)存儲(chǔ)、9#AISoft、阿里云、面壁、趨境等公司共同開發(fā)的高性能內(nèi)存型長(zhǎng)記憶存儲(chǔ)系統(tǒng)即將開源發(fā)布,該系統(tǒng)能夠?qū)崿F(xiàn)大范圍全局共享與持久化KV-Cache,以存換算,共同構(gòu)建大模型時(shí)代下的高性能內(nèi)存型長(zhǎng)記憶存儲(chǔ)系統(tǒng)生態(tài)。
最后,鄭緯民院士總結(jié)指出,AI存儲(chǔ)是人工智能大模型的基石,貫穿于大模型生命周期的每一個(gè)環(huán)節(jié)。通過(guò)以存強(qiáng)算、以存換算,先進(jìn)的AI存儲(chǔ)能夠提升訓(xùn)練集群的可用度,降低推理成本,提升用戶體驗(yàn)。
-
存儲(chǔ)
+關(guān)注
關(guān)注
13文章
4341瀏覽量
86030 -
AI
+關(guān)注
關(guān)注
87文章
31338瀏覽量
269746 -
人工智能
+關(guān)注
關(guān)注
1793文章
47539瀏覽量
239392
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論