豆豆小说阅读网,欢乐颂小说结局是什么,完美世界txt全集下载

本期導讀

MLPerf 組織最近發布了最新一輪機器學習性能測試結果，首次直接參加此次測試的“新力量” 賽靈思（Xilinx），在最新 MLPerf 推斷基準測試中取得了“圖像分類”最高的性能/峰值（Perf divided by peak TOPS）成績。TOPS（每秒萬億次運算）是一個衡量性能效率的指標，意味著在給定 X 個硬件峰值計算量的情況下，賽靈思提供了最高的吞吐量性能。機器學習（ML）是支撐當今人工智能（AI）技術發展的核心算法，性能效率關乎各種 AI 應用的實現和落地。然而，玩家們你方唱罷我登場的機器學習性能之爭，紙上公開的數據是否可信，效率高低誰來評判、如何評判？

帶著這些問題，Aspencore 首席分析師邵樂峰先生連線賽靈思人工智能高級總監姚頌及人工智能高級經理羅霖先生，希望通過更深度地了解賽靈思此次參加測試的過程及結果，探索衡量機器學習芯片性能的基準及自適應計算平臺的前景。

機器學習性能誰來評判？

當今 AI 芯片的評測標準，主流的有國際上的 MLPerf，國內有人工智能產業發展聯盟的 AIIA DNN benchmark（人工智能端側芯片基準測試評估方案）。

MLPerf 是用于測試機器學習（ML）硬件、軟件以及服務的訓練和推斷性能的一套公開、標準化基準，該行業基準測試組織自 2018 年 5 月成立以來，得到了亞馬遜、百度、Facebook、谷歌、哈佛大學、英特爾、微軟和斯坦福大學等支持，旨在提供一個共同認可的過程，來衡量不同類型的加速器和系統如何快速有效地執行訓練過的神經網絡。

作為 AI 芯片領域一個重要的基準測試，MLPerf 主要包括訓練和推斷兩方面的性能測試，并正在迅速成為業界衡量 ML 性能的事實標準。盡管目前看仍偏重于訓練端，但賽靈思軟件和人工智能高級經理羅霖認為未來推斷側性能測試的比例將會不斷增加，尤其是 MLPerf 今年在測試中增加了新模式和手機/筆記本電腦這兩種新類別。今年的 MLPerf Inference 基準測試（v0.7）的第二個版本，吸引了全球 1，200 多位同行進行評審。

從參測過程看 MLPerf 測試有何基準

此次賽靈思與 Mipsology 合作，參加了嚴格的“封閉”基準測試。該測試向廠商提供預訓練網絡和預訓練權重，是一個真正的“Close Deviation”同類測評。羅霖解釋說，同類測評就像是跳水比賽中和自選動作對應的標準動作，是實打實的基于同樣預訓練權重模型的對比。

測試系統使用賽靈思 Alveo U250 加速器卡，該卡以 Mipsology 優化的領域專用架構（DSA）為基礎。基準測試測量了基于 Alveo 的定制 DSA 在離線模式下以 5，011 圖像/秒的速度執行基于 ResNet-50 基準的圖像分類任務的效率。ResNet-50 以圖像/秒為單位測量圖像分類性能。結果，賽靈思實現了最高的性能/峰值（TOPS，每秒萬億次運算）。這是一個衡量性能效率的指標，因此也就意味著，在給定 X 個硬件峰值計算量的情況下，賽靈思提供了最高的吞吐量性能。

此外，值得一提的是，MLPerf 的結果還顯示，賽靈思與其在數據手冊中公布的性能相比，實現了 100% 的可用 TOPS。而市場上的大多數廠商只能提供其峰值 TOPS 的一小部分，效率最高通常不超過 40%。這一令人印象深刻的結果表明，并非所有數據手冊，或者說紙面上的原始峰值 TOPS，都能準確代表實際性能。

從測試看，還有一個重要的因素值得關注， ML 應用涉及的不僅僅是 AI 處理。它們通常需要 ML 預處理功能和后處理功能，這兩者會競爭系統帶寬，導致系統級瓶頸。而賽靈思自適應平臺的強大之處就在于，它可以通過加速關鍵型非 AI 功能同時構建應用級數據流流水線，來避免系統瓶頸，從而加速整體應用。同時，賽靈思在 TensorFlow 和 Pytorch 框架的支持上也做了很多工作，使 Tensorflow 和 Pytorch 模型的硬件加速變得更容易。

Xilinx 首次直接參測意味著什么？

賽靈思首次直接參與 MLPerf 測試，意味著以 FPGA 為基礎的 AI 解決方案已經日趨成熟，在推斷應用中達到了業界領先的水平，日漸成為 AI 應用的主流玩家。在本次數據中心類別的封閉分區（Closed Division）參賽廠商中，除了 Nvidia 和 Intel 之外，賽靈思是唯一提交結果的芯片公司。

羅霖表示：AI 推斷是一個快速增長的市場，例如自動駕駛和基于人工智能的視頻監控，需要計算機視覺任務，如圖像分類和目標檢測。這些復雜的計算工作負載需要不同級別的吞吐量、延遲和功率才能高效運行，這就是賽靈思和自適應計算產品的亮點所在。

由于時間的原因，賽靈思在本次 MLPerf 測試中只提交了 3 項測試結果，除了上文提到的使用 U250 加速卡進行“圖像分類”外，還使用 Alveo U280 加速卡進行“目標檢測”，以及使用 Versal ACAP 平臺進行“圖像分類”。羅霖說，U250 參加的測試是在封閉分區所有參賽者采用一樣的神經網絡模型，一樣的預訓練權重，一樣的預處理和后處理，就像體操比賽里面“標準動作”。相比之下，在開放分區（Open Division）類別中廠商允許使用自定義的方法對模型進行優化，包括重新訓練，屬于“百花齊放”類型。

但實際上，MLPerf Inference 0.7 版的 8 項測試內容賽靈思平臺其實都能支持，在公司內部運行的一些非圖像類模型，例如語音識別、自然語言處理等測試中，都有不錯的表現。相信今后公司會參加更多類別的測試。

法國初創公司 Mipsology 是賽靈思此次測試的合作伙伴，在利用 FPGA 實現神經網絡加速方面頗有建樹。羅霖表示，FPGA 是一個開放的、靈活的計算加速平臺，各種各樣和 Mipsology 一樣有能力的合作伙伴，都可以基于賽靈思相關硬件和工具鏈產品，開發出極具市場競爭力的產品。

TOPS 是衡量機器學習性能的唯一指標？

姚頌表示：機器學習（ML）應用程序不僅僅是 AI 處理，還需要 ML 前后的處理函數，因為這些函數會競爭系統帶寬并導致系統級瓶頸。因此，最優秀的 AI 應用實現方案未必是速度最快的，它需要的是在效率最高的同時保持靈活性，必須是量身定制的，能夠按需交付性能，不多不少。

眾所周知，神經網絡中的前一個計算結果通常都作為后一個計算的輸入，AI 推斷效率發揮不出來的主要原因是要花很多時間去內存中讀取數據。

姚頌列舉了兩種常見的提升效率模式的做法：

一是通過將計算結果快速存儲下來，避免對內存的反復讀取和寫入；

另一種是對神經網絡進行分割處理，只調用與特定區塊處理相關的數據，以流水線的方式掩蓋掉內存讀取的延時。

而具體到賽靈思的做法，羅霖更強調“端到端的優化”對高計算效率的影響。也就是說，首先要關注底層神經網絡處理單元微架構的設計，包括計算乘加、數據存儲/搬運、流水線調度等等；其次是中間層的工具鏈，例如在編譯的時候是否對模型進行了優化，是否將與模型相關的計算和對存儲的操作有效映射到微架構上；最后，再對上層應用進行優化。這一系列操作并非簡單的硬件堆砌就能達到，而是要在性能、成本、功耗等多因素之間找到微妙的平衡，不能像孩子們玩的蹺蹺板，一邊的升起，往往意味著另一邊的下墜。

羅霖進一步解釋說，一些解決方案非常適合 AI 推斷，但并不適合整體應用處理。GPU 和 ASIC 往往能提供在紙面上看上去很高的 TOPS，但是 AI 推斷性能通常需要與系統 I/O、預處理性能和后處理性能相匹配。如果非 AI 組件不能高效地在單芯片上實現，就需要多芯片解決方案。多芯片方案需要在器件之間傳遞數據，會降低系統性能并提高功耗。因此，一個能夠高效實現整體應用的單器件在實際 AI 推斷部署中擁有顯著優勢。

自適應計算平臺有哪些典型應用？

賽靈思 Versal ACAP 自適應計算平臺構建于能在制造后依然可以動態重配置的硬件上，包括 FPGA 等經過長期檢驗的技術，以及賽靈思 AI 引擎等最近的創新。其強大之處在于，不僅可以加速關鍵的人工智能和非人工智能功能，而且還可以構建應用程序級流媒體管道，以避免系統瓶頸，從而實現整個應用程序的加速。

為了能夠更好地理解上述理論，羅霖和姚頌為我們列舉了一些典型的應用場景：

自動駕駛

自動駕駛對超低延時是相當看重的，通常要求每一幀的延時不能超過 33 毫秒，這意味著真正能留給感知和識別的時間只有不到 10 毫秒，FPGA 可以做到幾毫秒之內的延時，相比之下，GPU 就很難做到。

智能視頻分析

“數據路徑越復雜對 FPGA 越有利”，羅霖說，在智能視頻分析中，不光有 CNN 推斷，還包括檢測、解碼、圖像預處理和后處理等許多工作，FPGA 器件能夠做很多優化的、定制化的硬件加速。如果換成 GPU，盡管在處理 YOLOV3 模型時效果不錯，但添加上其他任務后，就會明顯感到“力不從心”，類似現象在語音類、推薦類應用中也很常見。

ResNet-50 Vs YOLOv3

YOLOv3 是用于各類目標檢測與識別的神經網絡模型，準確率高。支持者認為，ResNet-50 使用的 224×224 基準圖像像素現在“幾乎無人使用”，而 YOLOv3 使用 608×608，甚至 1440×1440 像素，屬于高清處理，這對自動駕駛、機器人、銀行安全及零售分析領域的客戶來說十分重要。

姚頌不否認 YOLOv3 是在準確率和計算性能上取得不錯平衡的模型，但他不認為這樣就可以取代 ResNet-50 標準，例如在醫療影像、工業圖像檢測等領域就使用了包括 SSB 在內的其它模型。更重要的是，ResNet-50 的整體架構非常高效，很多互聯網企業的神經網絡都基于 ResNet-50 模塊搭建。所以，“我們不應該只把眼光聚焦在 YOLOv3 模型上，一顆 AI 芯片，至少應該把 CNN 推斷或者類似的神經網絡架構都支持起來，否則人家會認為你只支持 YOLOv3 模型。”他說。

作者：邵樂峰

ASPENCORE 中國區首席分析師

責任編輯：haq

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

芯片

芯片

+關注

關注
456

文章
50873

瀏覽量
424078
AI

AI

+關注

關注
87

文章
30979

瀏覽量
269251
人工智能

人工智能

+關注

關注
1791

文章
47336

瀏覽量
238696
機器學習

機器學習

+關注

關注
66

文章
8421

瀏覽量
132703

傳統機器學習方法和應用指導

在上一篇文章中，我們介紹了機器學習的關鍵概念術語。在本文中，我們會介紹傳統機器學習的基礎知識和多種算法特征，供各位老師選擇。 01 傳統機器

發表于 12-30 09:16 ?179次閱讀

傳統<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法和應用指導

如何選擇云原生機器學習平臺

當今，云原生機器學習平臺因其彈性擴展、高效部署、低成本運營等優勢，逐漸成為企業構建和部署機器學習應用的首選。然而，市場上的云原生機器

發表于 12-25 11:54 ?114次閱讀

ADS1281怎樣評判采集到的結果是否準確？

各位專家我按照ADS1281做了一個轉換板，目前也能采集到電壓，但是不知道該怎樣評判采集到的結果是否準確，請問各位專家該怎樣判定我的板子是否達到了ADS1281這個芯片標稱的性能呢，非常感激。

發表于 12-11 07:17

什么是機器學習？通過機器學習方法能解決哪些問題？

計算機系統自身的性能”。事實上，由于“經驗”在計算機系統中主要以數據的形式存在，因此機器學習需要設法對數據進行分析學習，這就使得它逐漸成為智能數據分析技術的創新源之一，

發表于 11-16 01:07 ?424次閱讀

什么是<b class='flag-5'>機器</b><b class='flag-5'>學習</b>？通過<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法能解決哪些問題？

NPU與機器學習算法的關系

在人工智能領域，機器學習算法是實現智能系統的核心。隨著數據量的激增和算法復雜度的提升，對計算資源的需求也在不斷增長。NPU作為一種專門為深度學習等機器

發表于 11-15 09:19 ?488次閱讀

如何評判電子煙PCBA方案優劣

如何評判電子煙方案優劣

發表于 10-16 16:21 ?558次閱讀

【《時間序列與機器學習》閱讀體驗】+ 時間序列的信息提取

提高機器學習模型效果與性能的過程。而我對特征工程的理解就是從一堆數據里找出能表示這堆數據的最小數據集，而這個找出特征數據的過程就是信息提取。隨后給出了一系列定義，包括特征的最小最大縮放、特征的標準化

發表于 08-14 18:00

對于一個放大電路如何評判它的指標性能好壞？

對于一個放大電路如何評判它的指標性能好壞？比如說利用信噪比、共模抑制比、失調電壓、頻帶等指標如何去評判一個放大電路的性能好壞呢？是達到datesheet上的指標就可以了嗎？另外，信噪比

發表于 08-01 06:09

機器學習中的數據分割方法

在機器學習中，數據分割是一項至關重要的任務，它直接影響到模型的訓練效果、泛化能力以及最終的性能評估。本文將從多個方面詳細探討機器學習中數據分

發表于 07-10 16:10 ?1841次閱讀

如何理解機器學習中的訓練集、驗證集和測試集

理解機器學習中的訓練集、驗證集和測試集，是掌握機器學習核心概念和流程的重要一步。這三者不僅構成了模型學習與評估的基礎框架，還直接關系到模型

發表于 07-10 15:45 ?4117次閱讀

機器學習算法原理詳解

機器學習作為人工智能的一個重要分支，其目標是通過讓計算機自動從數據中學習并改進其性能，而無需進行明確的編程。本文將深入解讀幾種常見的機器

發表于 07-02 11:25 ?1095次閱讀

深度學習與傳統機器學習的對比

在人工智能的浪潮中，機器學習和深度學習無疑是兩大核心驅動力。它們各自以其獨特的方式推動著技術的進步，為眾多領域帶來了革命性的變化。然而，盡管它們都屬于機器

發表于 07-01 11:40 ?1412次閱讀

機器學習8大調參技巧

今天給大家一篇關于機器學習調參技巧的文章。超參數調優是機器學習例程中的基本步驟之一。該方法也稱為超參數優化，需要搜索超參數的最佳配置以實現最佳性能

發表于 03-23 08:26 ?634次閱讀

怎樣評判連接器的防水性能？LP系列工業級連接器IP68防水真硬核

水分有多種形態，氣態、液態的水都會對工業級連接器的運行構成挑釁。因而工業級連接器為保障在涉水與潮濕環境下能可靠與安全地運行，多會從結構與制造工藝等方面去實現更高的防水性能。那么怎么去評判一款連接器

發表于 03-08 08:12 ?653次閱讀

微軟推出ONNX Runtime Web，利用WebGPU優化瀏覽器機器學習性能

作為微軟的 JavaScript 庫，ONNX Runtime Web 使得網絡開發者能在瀏覽器環境下部署機器學習模型，并提供多種硬件加速的后端支持。

發表于 03-05 14:23 ?1122次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史