機器學習 (ML) 需要行業標準的性能基準,以幫助創建和競爭評估眾多與 ML 相關的軟件和硬件解決方案。
然而,與其他領域不同,ML 訓練面臨三個不同的基準測試挑戰:
提高訓練吞吐量的優化可以增加求解時間。
訓練是隨機的,解決問題的時間差異很大。
軟件和硬件系統如此多樣化,以至于很難使用相同的二進制文件、代碼甚至超參數進行公平的基準測試。
MLcommons 的機器學習基準測試解決方案 MLPerf 旨在解決這些問題。MLPerf 在推動性能和可擴展性改進方面的功效在來自不同制造商的兩組數據中進行了統計評估。
MLPerf 旨在為機器學習提供一個具有代表性的基準套件,以正確測量系統性能,以實現五個高級目標:
允許對競爭系統進行公平比較,同時促進機器學習創新。
通過以公平和相關的方式衡量 ML 開發速度。
確保一致性結果的可重復性。
為商業和學術團體提供服務。
保持較低的基準測試成本,以便每個人都可以參與。
MLPerf 創建了一個基準套件,其中包括各種應用程序、DNN 模型和優化器。它還準確地指定了模型和訓練技術,以創建每個基準的參考實現。MLPerf 在比較結果時建立了時間限制以減少隨機性的影響。此外,它允許 ML 和系統社區通過使提交代碼開源來檢查和復制結果。
每個基準都會計算在給定數據集上訓練模型以達到給定質量目標所需的時間。最終結果是通過以特定于基準的次數測量基準,刪除最低和最高值,并對剩余結果進行平均以解釋 ML 訓練持續時間的巨大差異來生成的。即使是平均結果數量也不足以消除所有波動。成像基準的結果通常為 +/- 2.5%,而其他基準通常為 +/- 5%。
MLPerf 希望通過讓提交者重新實現參考實現來刺激軟件和硬件方面的創新。MLPerf 有兩個部門,提供不同程度的重新實現自由度。封閉部門要求使用與參考實現相同的模型和優化器,以便比較硬件平臺或軟件框架,“蘋果對蘋果”。開放部門旨在通過允許任何機器學習技術達到預期的質量來促進更快的模型和優化器。
ML 系統的行業基準
總而言之,MLPerf Training 是涵蓋商業和學術應用的機器學習基準的集合。盡管它是唯一一個廣泛使用且覆蓋范圍如此廣泛的 ML 訓練基準套件,但它幾乎沒有做出任何貢獻。首先,通過精確定義模型架構和每個基準特征的訓練程序,可以對等效工作負載進行系統比較。此外,為了解決對 ML 訓練進行基準測試的挑戰,使用了參考實現和規則定義。訓練過程的隨機性、為了確定性能優化的質量影響而需要訓練完成以及需要在各種系統規模下改變工作負載是一些挑戰。
盡管 MLPerf 側重于相對系統性能,但正如在線結果所證明的那樣,它還提供了 ML 和基準測試的一般課程。真實數據集的大小對于確保真實的內存系統行為至關重要。例如,最初的 NCF 數據集太小而無法完全放入內存中。此外,當對小于工業規模的數據集進行基準測試時,訓練時間不應包括啟動時間,這在實際使用中成比例地減少。
因此,MLPerf 正在迅速將自己確立為 ML 系統的行業基準,同時也是一個理想的論壇,用于發布分析師、投資者和買家可以依賴的基準測試結果的新產品。
審核編輯:郭婷
-
測量系統
+關注
關注
2文章
540瀏覽量
41464 -
機器學習
+關注
關注
66文章
8435瀏覽量
132885
發布評論請先 登錄
相關推薦
評論