>>" />

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

ARM發布最新Compute Library

pmkA_arm_china ? 來源:互聯網 ? 作者:佚名 ? 2017-10-09 13:56 ? 次閱讀

開心了這么多天,該“收心”好好干活了,正好Arm有一個好消息要告訴大家,最新一季的Compute Library公開發行版(版本 17.9)現已推出,讓我們一起來看看重點新增的一些特性和函數吧。

新的特性

此發行版主要增添了以下特性:

  • 多個新的面向 Arm CPU 和 Mali GPU機器學習函數

  • 支持新的數據類型和精度(重點支持低精度數據類型)

  • 支持利用 Arm-v8.2 CPU 架構的新指令實現 FP16 加速

  • 針對關鍵的機器學習函數進行微架構優化

  • 降低復雜網絡內存開銷的內存管理工具

  • 用于基本測試的基礎結構框架

新的函數

我們添加了許多新的函數,滿足以 Arm 型平臺為目標的開發人員的需求。這些新例程采用 OpenCL C 和 C(利用NEONIntrinsics)編寫。

OpenCL C(針對Mali GPU):

  • Bounded ReLu

  • Depth wise卷積(在 mobileNet 中使用)

  • 反量化

  • Direct卷積 1x1

  • Direct卷積 3x3

  • Direct卷積 5x5

  • 3D 張量展平

  • 向下取整

  • 全局池化(在 SqueezeNet 中使用)

  • Leaky ReLu

  • 量化

  • Reduction 運算

  • ROI 池化

CPU (NEON):

  • Bounded ReLu

  • Direct卷積 5x5

  • 反量化

  • 向下取整

  • Leaky ReLu

  • 量化

  • 具有定點加速的新函數

Direct卷積是在經典滑動窗口基礎上執行卷積層的一種替代方法。在Mali GPU Bifrost 架構的實現中,使用Direct卷積對于改進我們 CNN 的性能很有幫助(我們觀察到,對 AlexNet 使用Direct卷積時性能最多可提升 1.5 倍)。

支持低精度

在許多機器學習應用場景中,可以通過降低計算精度來提升效率和性能。這是我們工程師上一季度的重點關注領域。我們利用低精度實施了現有函數的新版本,如 8 位和 16 位定點,這同時適用于 CPU 和 GPU。

GPU (OpenCL) - 8 位定點

  • Direct卷積 1x1

  • Direct卷積 3x3

  • Direct卷積 5x5

GPU (OpenCL) - 16 位定點

  • 算術加法、減法和乘法

  • 深度轉換

  • 深度連接(concatenate)

  • 深度卷積

  • GEMM

  • 卷積層

  • 全連接層

  • 池化層

  • Softmax 層

NEON - 16 位定點

  • 算術加法、減法和乘法

  • 卷積層

  • 深度連接(concatenate)

  • 深度轉換

  • Direct卷積 1x1

  • 全連接層

  • GEMM

  • Softmax 層

微架構優化

在 Compute Library 項目啟動之初,我們的宗旨主要是共享計算機視覺和機器學習的一整套底層函數,要保障性能良好,最為重要的是要可靠且可移植。Compute Library 能夠為著眼于 Arm 處理器的開發人員和合作伙伴節省時間和成本;同時,Compute Library 在我們合作伙伴實施的許多系統配置中也有出色的表現。這也是我們將NEONintrinsic和 OpenCL C 作為目標語言的原因。但在某些情形中,必須要充分發揮硬件的所有性能。因此,我們也著眼于在 Compute Library 中增加底層原語,這些底層原語利用專為目標 CPU 微架構定制的手工匯編進行了優化。

在決定我們應將重點放在哪些函數時,我們的研發團隊研究了利用 Caffe 框架的機器學習工作負載。

所用的三種工作負載為:

  • AlexNet,將圖像目標分類到1000個可能類別的 大型網絡

  • LeNet,將手寫數字分類到10個可能類別的 中型網絡

  • ConvNet,將圖像分類到10個可能類別的 小型網絡

下圖顯示了這些工作負載的指令使用情況:

我們的團隊發現,這些網絡大約有 50-80% 的計算在 SGEMM 函數內發生,這個函數是將兩個浮點矩陣相乘。還有其他幾個函數也比較突出,例如冪函數和轉換矩陣維度的函數。其余的計算則分散在一個長尾分布中。

您可以發現這樣的一個趨勢,SGEMM 所占的比例隨著網絡規模變大而升高,但這種趨勢更有可能是因為層的配置所致,而不是與大小相關。從中我們可以意識到,矩陣乘法對神經網絡確實非常重要。如果說哪個目標函數最需要優化,應該就是它了。

在此發行版的庫中,我們增加了面向Cortex-A53和Cortex-A72處理器的 CPU 匯編優化版 SGEMM (FP32)。這些例程的性能視平臺而異,但我們在測試中看到總體性能有大幅提升。例如,我們對 Firefly 開發板(64 位,多線程)進行了 AlexNet 基準測試,在 Cortex-A72 上測量到性能提升了約 1.6 倍。

下表顯示了我們在相同平臺上使用新的優化例程的一組基準測試結果。

在 Armv8.2 CPU 上支持 FP16

在關于17.6 發行版的介紹中(Arm計算庫第二個公開版本正式發布,這些廠商一直在用其進行開發!),Arm計劃在 CPU 中支持用于機器學習的新架構功能,而第一步就是在 Armv8.2 CPU 中支持 FP16。目前,庫中增加了面向 Armv8.2 FP16 的新函數:

  • 激活層

  • 算術加法、減法和乘法

  • 批量歸一化(Batch Normalization)

  • 卷積層(基于 GEMM)

  • 卷積層(Direct卷積)

  • 局部連接

  • 歸一化

  • 池化層

  • Softmax 層

雖然我們沒有對這些函數做一些激進的優化(這些函數采用 NEON intrinsic而非手工優化的匯編語言編寫),但與使用 FP32 且必須在不同格式之間轉換相比,性能有了大幅提升。下表比較了一些工作負載,從中可以看出,借助 v8.2 CPU 指令,可以減少計算所需的周期數。

面向 Bifrost 架構的 GPU 優化

如今,許多移動合作伙伴正在利用 Mali GPU 來加快機器學習工作負載的速度。根據這些合作伙伴的反饋,我們在這個領域做了針對性的優化。

新的Direct卷積 3x3 和 5x5 函數針對 Bifrost 架構進行了優化,性能與上一發行版 (17.06) 中的例程相比有了顯著提升。在部分測試平臺上使用這些新例程時,我們發現性能普遍提高約 2.5 倍。此外,在 AlexNet 的多批量工作負載中,GEMM 中引入的新優化幫助我們獲得了 3.5 倍的性能提升。性能因平臺和實現方法而異,但總體而言,我們預計這些優化能夠在 Bifrost GPU 上顯著提升性能。

下圖顯示了在華為 Mate 9 智能手機上的一些測試結果,測試中禁用了 DVFS,取 10 次運行中最短的執行時間作為結果。由此可見,新例程在性能上優于舊版本。

內存管理器

復雜工作負載(大型網絡)會需要大量內存,對于嵌入式平臺和移動平臺而言,這正是影響性能的癥結所在。我們聽取了合作伙伴的反饋,決定在庫的運行時組件中添加一個“內存管理器”功能。內存管理器通過循環利用臨時緩沖區降低通用算法/模型的內存要求。

內存管理器包含一個生命周期管理器(用于跟蹤注冊對象的生命周期)和一個池管理器(用于管理內存池)。當開發人員配置函數時,運行時組件會跟蹤內存要求。例如,一些張量可能僅僅是暫時的,所以只分配所需的內存。內存管理器的配置應從單一線程循序執行,以便提高內存利用率。

下表顯示了在使用內存管理器時在我們測試平臺上測量到的內存節省情況。結果因平臺、工作負載和配置而異??傮w而言,我們認為內存管理器能夠幫助開發人員節省內存。

接下來,我們計劃繼續根據合作伙伴和開發人員的需求,進行具體的優化。此外,我們還將重視與機器學習框架的集成,并與 Google Android NN 等新的 API 保持同步。

我們的目標不是涵蓋所有數據類型和函數,而是根據開發人員和合作伙伴的反饋,精選出最需要實施的函數。所以,我們期待著聽到您的聲音!

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • ARM
    ARM
    +關注

    關注

    134

    文章

    9097

    瀏覽量

    367581

原文標題:節后第一個好消息就它了——Compute Library 17.9 正式發布!

文章出處:【微信號:arm_china,微信公眾號:Arm芯聞】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    W5500 ARM mbed 庫發布

    本帖最后由 Katrina_WIZnet 于 2014-6-24 15:40 編輯 WIZnet 是 ARM mbed(http://mbed.org/teams/WIZnet/)的官方
    發表于 06-24 15:39

    PRI Compute Module – 樹莓派的繼任者

    問題,樹莓派基金會又發布了一塊新的板卡 - “Compute Module”(以下簡稱Compute)。Compute是一塊長得像小型SODIMM內存條的電路板,尺寸大概是樹莓派的四分
    發表于 09-30 13:21

    請問C2000支持IEC60730的library發布了嗎?

    想問一下,28035支持IEC60730, class B 的library 發布了嗎?最新的library是不是集成在ROM中?
    發表于 08-19 07:05

    使用CRL“ARM CMSIS SIN COS”和SW4STM32發布構建simulink項目代碼報錯怎么解決?

    /arm_cos_f32.o" "C:/MATLAB/STM32-MAT/STM32/STM32demos/MotorControl/FOC/PMSM_FOC_Compute
    發表于 01-16 07:32

    VHDL Library of Arithmetic Uni

    VHDL Library of Arithmetic Units A comprehensive library of arithmetic units written
    發表于 06-14 09:08 ?26次下載

    VHDL Library of Arithmetic Uni

    VHDL Library of Arithmetic Units fdl A comprehensive library of arithmetic units written
    發表于 06-14 09:09 ?17次下載

    ADS_FSL_LIBRARY

    ADS_FSL_LIBRARY
    發表于 09-13 10:41 ?0次下載

    FX3 Wrapper Library

    FX3 Wrapper Library
    發表于 01-29 11:55 ?6次下載
    FX3 Wrapper <b class='flag-5'>Library</b>

    ADM1266 Python Library

    ADM1266 Python Library
    發表于 02-02 10:40 ?1次下載
    ADM1266 Python <b class='flag-5'>Library</b>

    ADM1266 Python Library

    ADM1266 Python Library
    發表于 03-05 11:16 ?10次下載
    ADM1266 Python <b class='flag-5'>Library</b>

    ARM系列—機密計算

    今天來看一個ARM中的新東西,機密計算架構(Confidential Compute Architecture,CCA)。CCA是ARM公司在2021年發布的,屬于Armv9-A的關鍵
    發表于 05-24 15:25 ?1472次閱讀
    <b class='flag-5'>ARM</b>系列—機密計算

    Arm RAN 加速庫(RAN Acceleration Library, RAL)通過采用 BSD 開源許可證將代碼庫正式開源

    Arm RAN 加速庫(RAN Acceleration Library, RAL)通過采用 BSD 開源許可證將代碼庫正式開源 作為 RAN 軟件中最重要的模塊,Arm RAN 加速庫(RAN
    的頭像 發表于 07-20 17:31 ?1805次閱讀

    愛立信新一代RAN Compute在網絡處理能力方面取得重大突破

    愛立信于今日發布了愛立信RAN Compute產品組合中的最新一代處理器 ,旨在幫助運營商(CSP)充分受益于當前與未來的無線接入技術演進。這些迄今為止最先進的RAN Compute產品采用了愛立信
    的頭像 發表于 11-15 00:55 ?679次閱讀
    愛立信新一代RAN <b class='flag-5'>Compute</b>在網絡處理能力方面取得重大突破

    RL78系列 Data Flash Library Type04軟件包3.0版發布說明

    電子發燒友網站提供《RL78系列 Data Flash Library Type04軟件包3.0版發布說明.pdf》資料免費下載
    發表于 02-19 10:06 ?0次下載
    RL78系列 Data Flash <b class='flag-5'>Library</b> Type04軟件包3.0版<b class='flag-5'>發布</b>說明

    利用Arm Kleidi技術實現PyTorch優化

    Neoverse 平臺上的 PyTorch 推理表現。Kleidi 技術可以通過 Arm Compute Library (ACL) 和 KleidiAI 庫獲取。
    的頭像 發表于 12-23 09:19 ?148次閱讀
    利用<b class='flag-5'>Arm</b> Kleidi技術實現PyTorch優化
    主站蜘蛛池模板: 国产一级aaa全黄毛片| 国产女人视频免费观看| 高清色黄毛片一级毛片| 日韩中文字幕第一页| 91大神网址| 特级黄aaaaaaaaa毛片| 狠狠色噜噜狠狠狠狠米奇7777| 特级毛片s级全部免费| 在线视频毛片| 色在线免费| 在线播放国产不卡免费视频| 亚洲人成网站色7799在线播放 | 2017天天干| www四虎影视| 久久国产伦三级理电影| 视频免费观看网址| 男女午夜特黄毛片免费| 永久网站色视频在线观看免费 | 午夜毛片免费观看视频| 欧美人与物另类| 色婷婷色综合| 夜夜gan| 又色又污又爽又黄的网站| 色香视频首页| 午夜视频在线观看免费视频| 一区卡二区卡三区卡视频| 日韩高清一级| 天堂网在线www资源在线| 国模欢欢大尺度| 国内露脸夫妇交换精品| 6一10周岁毛片免费| 特级做a爰片毛片免费看| 中国理论片| 李老汉和小花的性生生活| 狠狠五月深爱婷婷网免费| 操干干| 在线免费看黄| 成人看的一级毛片| 中文字幕在线二区| 免费人成动漫在线播放r18| 久久9966精品国产免费|