本期導讀
MLPerf 組織最近發布了最新一輪機器學習性能測試結果,首次直接參加此次測試的“新力量” 賽靈思(Xilinx), 在最新 MLPerf 推斷基準測試中取得了“圖像分類”最高的性能/峰值(Perf divided by peak TOPS)成績。TOPS(每秒萬億次運算) 是一個衡量性能效率的指標,意味著在給定 X 個硬件峰值計算量的情況下,賽靈思提供了最高的吞吐量性能。機器學習(ML)是支撐當今人工智能(AI)技術發展的核心算法,性能效率關乎各種 AI 應用的實現和落地。然而,玩家們你方唱罷我登場的機器學習性能之爭,紙上公開的數據是否可信,效率高低誰來評判、如何評判?
帶著這些問題,Aspencore 首席分析師邵樂峰先生連線賽靈思人工智能高級總監姚頌及人工智能高級經理羅霖先生,希望通過更深度地了解賽靈思此次參加測試的過程及結果,探索衡量機器學習芯片性能的基準及自適應計算平臺的前景。
1
機器學習性能誰來評判?
當今 AI 芯片的評測標準,主流的有國際上的 MLPerf,國內有人工智能產業發展聯盟的 AIIA DNN benchmark(人工智能端側芯片基準測試評估方案)。
MLPerf 是用于測試機器學習(ML)硬件、軟件以及服務的訓練和推斷性能的一套公開、標準化基準,該行業基準測試組織自 2018 年 5 月成立以來,得到了亞馬遜、百度、Facebook、谷歌、哈佛大學、英特爾、微軟和斯坦福大學等支持,旨在提供一個共同認可的過程,來衡量不同類型的加速器和系統如何快速有效地執行訓練過的神經網絡。
作為 AI 芯片領域一個重要的基準測試,MLPerf 主要包括訓練和推斷兩方面的性能測試,并正在迅速成為業界衡量 ML 性能的事實標準。盡管目前看仍偏重于訓練端,但賽靈思軟件和人工智能高級經理羅霖認為未來推斷側性能測試的比例將會不斷增加,尤其是 MLPerf 今年在測試中增加了新模式和手機/筆記本電腦這兩種新類別。今年的 MLPerf Inference 基準測試(v0.7)的第二個版本,吸引了全球 1,200 多位同行進行評審。
2
從參測過程看 MLPerf 測試有何基準
此次賽靈思與 Mipsology 合作,參加了嚴格的“封閉”基準測試。該測試向廠商提供預訓練網絡和預訓練權重,是一個真正的“Close Deviation”同類測評。羅霖解釋說,同類測評就像是跳水比賽中和自選動作對應的標準動作,是實打實的基于同樣預訓練權重模型的對比。
測試系統使用賽靈思 Alveo U250 加速器卡,該卡以 Mipsology 優化的領域專用架構(DSA)為基礎。基準測試測量了基于 Alveo 的定制 DSA 在離線模式下以 5,011 圖像/秒的速度執行基于 ResNet-50 基準的圖像分類任務的效率。ResNet-50 以圖像/秒為單位測量圖像分類性能。結果,賽靈思實現了最高的性能/峰值(TOPS,每秒萬億次運算)。這是一個衡量性能效率的指標,因此也就意味著,在給定 X 個硬件峰值計算量的情況下,賽靈思提供了最高的吞吐量性能。
此外,值得一提的是,MLPerf 的結果還顯示,賽靈思與其在數據手冊中公布的性能相比,實現了 100% 的可用 TOPS。而市場上的大多數廠商只能提供其峰值 TOPS 的一小部分,效率最高通常不超過 40%。這一令人印象深刻的結果表明,并非所有數據手冊,或者說紙面上的原始峰值 TOPS,都能準確代表實際性能。
從測試看, 還有一個重要的因素值得關注, ML 應用涉及的不僅僅是 AI 處理。它們通常需要 ML 預處理功能和后處理功能,這兩者會競爭系統帶寬,導致系統級瓶頸。而賽靈思自適應平臺的強大之處就在于,它可以通過加速關鍵型非 AI 功能同時構建應用級數據流流水線,來避免系統瓶頸,從而加速整體應用。同時,賽靈思在 TensorFlow 和 Pytorch 框架的支持上也做了很多工作,使 Tensorflow 和 Pytorch 模型的硬件加速變得更容易。
3
Xilinx 首次直接參測意味著什么?
賽靈思首次直接參與 MLPerf 測試,意味著以 FPGA 為基礎的 AI 解決方案已經日趨成熟,在推斷應用中達到了業界領先的水平,日漸成為 AI 應用的主流玩家。在本次數據中心類別的封閉分區(Closed Division)參賽廠商中,除了 Nvidia 和 Intel 之外,賽靈思是唯一提交結果的芯片公司。
羅霖表示:AI 推斷是一個快速增長的市場,例如自動駕駛和基于人工智能的視頻監控,需要計算機視覺任務,如圖像分類和目標檢測。這些復雜的計算工作負載需要不同級別的吞吐量、延遲和功率才能高效運行,這就是賽靈思和自適應計算產品的亮點所在。
由于時間的原因,賽靈思在本次 MLPerf 測試中只提交了 3 項測試結果,除了上文提到的使用 U250 加速卡進行“圖像分類”外,還使用 Alveo U280 加速卡進行“目標檢測”,以及使用 Versal ACAP 平臺進行“圖像分類”。 羅霖說,U250 參加的測試是在封閉分區所有參賽者采用一樣的神經網絡模型,一樣的預訓練權重,一樣的預處理和后處理,就像體操比賽里面“標準動作”。相比之下,在開放分區(Open Division)類別中廠商允許使用自定義的方法對模型進行優化,包括重新訓練,屬于“百花齊放”類型。
但實際上,MLPerf Inference 0.7 版的 8 項測試內容賽靈思平臺其實都能支持,在公司內部運行的一些非圖像類模型,例如語音識別、自然語言處理等測試中,都有不錯的表現。相信今后公司會參加更多類別的測試。
法國初創公司 Mipsology 是賽靈思此次測試的合作伙伴,在利用 FPGA 實現神經網絡加速方面頗有建樹。羅霖表示,FPGA 是一個開放的、靈活的計算加速平臺,各種各樣和 Mipsology 一樣有能力的合作伙伴,都可以基于賽靈思相關硬件和工具鏈產品,開發出極具市場競爭力的產品。
4
TOPS 是衡量機器學習性能的唯一指標?
姚頌表示:機器學習(ML)應用程序不僅僅是 AI 處理,還需要 ML 前后的處理函數,因為這些函數會競爭系統帶寬并導致系統級瓶頸。因此,最優秀的 AI 應用實現方案未必是速度最快的,它需要的是在效率最高的同時保持靈活性,必須是量身定制的,能夠按需交付性能,不多不少。
眾所周知,神經網絡中的前一個計算結果通常都作為后一個計算的輸入,AI 推斷效率發揮不出來的主要原因是要花很多時間去內存中讀取數據。
姚頌列舉了兩種常見的提升效率模式的做法:
一是通過將計算結果快速存儲下來,避免對內存的反復讀取和寫入;
另一種是對神經網絡進行分割處理,只調用與特定區塊處理相關的數據,以流水線的方式掩蓋掉內存讀取的延時。
而具體到賽靈思的做法,羅霖更強調“端到端的優化”對高計算效率的影響。也就是說,首先要關注底層神經網絡處理單元微架構的設計,包括計算乘加、數據存儲/搬運、流水線調度等等;其次是中間層的工具鏈,例如在編譯的時候是否對模型進行了優化,是否將與模型相關的計算和對存儲的操作有效映射到微架構上;最后,再對上層應用進行優化。這一系列操作并非簡單的硬件堆砌就能達到,而是要在性能、成本、功耗等多因素之間找到微妙的平衡,不能像孩子們玩的蹺蹺板,一邊的升起,往往意味著另一邊的下墜。
羅霖進一步解釋說,一些解決方案非常適合 AI 推斷,但并不適合整體應用處理。GPU 和 ASIC 往往能提供在紙面上看上去很高的 TOPS,但是 AI 推斷性能通常需要與系統 I/O、預處理性能和后處理性能相匹配。如果非 AI 組件不能高效地在單芯片上實現,就需要多芯片解決方案。多芯片方案需要在器件之間傳遞數據,會降低系統性能并提高功耗。因此,一個能夠高效實現整體應用的單器件在實際 AI 推斷部署中擁有顯著優勢。
5
自適應計算平臺有哪些典型應用?
賽靈思 Versal ACAP 自適應計算平臺構建于能在制造后依然可以動態重配置的硬件上,包括 FPGA 等經過長期檢驗的技術,以及賽靈思 AI 引擎等最近的創新。其強大之處在于,不僅可以加速關鍵的人工智能和非人工智能功能,而且還可以構建應用程序級流媒體管道,以避免系統瓶頸,從而實現整個應用程序的加速。
為了能夠更好地理解上述理論,羅霖和姚頌為我們列舉了一些典型的應用場景:
自動駕駛
自動駕駛對超低延時是相當看重的,通常要求每一幀的延時不能超過 33 毫秒,這意味著真正能留給感知和識別的時間只有不到 10 毫秒,FPGA 可以做到幾毫秒之內的延時,相比之下,GPU 就很難做到。
智能視頻分析
“數據路徑越復雜對 FPGA 越有利”,羅霖說,在智能視頻分析中,不光有 CNN 推斷,還包括檢測、解碼、圖像預處理和后處理等許多工作,FPGA 器件能夠做很多優化的、定制化的硬件加速。如果換成 GPU,盡管在處理 YOLOV3 模型時效果不錯,但添加上其他任務后,就會明顯感到“力不從心”,類似現象在語音類、推薦類應用中也很常見。
ResNet-50 Vs YOLOv3
YOLOv3 是用于各類目標檢測與識別的神經網絡模型,準確率高。支持者認為,ResNet-50 使用的 224×224 基準圖像像素現在“幾乎無人使用”,而 YOLOv3 使用 608×608,甚至 1440×1440 像素,屬于高清處理,這對自動駕駛、機器人、銀行安全及零售分析領域的客戶來說十分重要。
姚頌不否認 YOLOv3 是在準確率和計算性能上取得不錯平衡的模型,但他不認為這樣就可以取代 ResNet-50 標準,例如在醫療影像、工業圖像檢測等領域就使用了包括 SSB 在內的其它模型。更重要的是,ResNet-50 的整體架構非常高效,很多互聯網企業的神經網絡都基于 ResNet-50 模塊搭建。所以,“我們不應該只把眼光聚焦在 YOLOv3 模型上,一顆 AI 芯片,至少應該把 CNN 推斷或者類似的神經網絡架構都支持起來,否則人家會認為你只支持 YOLOv3 模型。”他說。
作者:邵樂峰
ASPENCORE 中國區首席分析師
責任編輯:haq
-
芯片
+關注
關注
456文章
50873瀏覽量
424078 -
AI
+關注
關注
87文章
30979瀏覽量
269251 -
人工智能
+關注
關注
1791文章
47336瀏覽量
238696 -
機器學習
+關注
關注
66文章
8421瀏覽量
132703
發布評論請先 登錄
相關推薦
評論