在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何優化ML模型與硬件實現TinyML?Arm歸納出5種作法

jf_cVC5iyAO ? 來源:易心Microbit編程 ? 2023-01-07 09:20 ? 次閱讀

近幾年,因應AI與ML應用趨勢浪潮,越來越多企業開始嘗試將這樣的能力帶到靠近數據源的邊緣設備或IoT裝置,來發展各種Edge AI或AIoT應用。例如結合語音指令來控制機器人作業,或是透過AI邊緣攝影機來偵測機臺設備有無故障。但受限于CPU效能、數據吞吐量、內存及數據儲存的影響,想要在資源有限的IoT或嵌入式裝置跑AI或ML推論模型,現在仍然不是一件容易的事。

近年來,一種微型機器學習新技術TinyML順勢而起,試圖從優化硬件或模型來實現裝置上的AI或ML應用,讓ML的推論功能能夠在資源有限的終端裝置上來實現,可說是加速實現Edge AI或AIoT應用的重要關鍵。

TinyML是什么?引用GoogleTensorflow 行動部門負責人Pete Warden的定義,指的是每次執行ML模型推論時,其功耗必須小于1毫瓦(1mW)。

除了考慮到功耗,運算力不足也是實現Edge AI或AIoT應用的關鍵問題。以Inception v4深度學習模型為例,硬件能力需要的運算量就有240個GOPS(每秒執行10億次運算) 但一般singleissue處理器,僅提供個位數的GOPS,甚至不只運算能力,連在內存中存取數據也會影響功耗,例如要從SRAM高速緩存來存取1TB的數據,一顆16奈米CPU每秒所消耗的功耗就超過1瓦。這些都是TinyML的挑戰。

現階段TinyML技術發展,主要是從ML模型與硬件優化來實現低功耗裝置上的ML應用。歸納起來實現TinyML的5種常見ML模型架構和優化的方法,包括降低精度(Reduce Precision)、數據重復利用(Data re-use)、權重壓縮(Weight compression)、轉換(Transforms)、稀疏運算(Sparse computation)。

第一種作法是轉換ML模型及權重的數據單元格式,來降低推論執行所需的運算量,例如將模型的權重從高精度FP32轉成較低精度的FP16或INT8格式。因ML模型需要很多乘加法運算,而高精度ML模型又比低精度ML模型需要的運算量更高,也因此,改用較低精度的ML模型來執行運算,能大幅降低功耗,甚至因運算數據變少,也能因應更高的吞吐量需求。這是第一個可以運用到TinyML的方法。

除了從數據單元格式著手,減少數據重復使用是另一個可行方法。例如可以將CNN神經網絡模型中經常重復使用的權重參數的數值,暫時集中存放到一處,不用每次都從內存來撈取數據,減少不必要任務處理,也能達到降低功耗的作用。

由于現在神經網絡模型體積越來越大,結構越來越復雜,因推論執行需處理的模型參數數量也就越多,大量使用內存來存放這些龐大數據,也造成了不少功耗的損失,也因此有了第3種作法是,透過權重壓縮技術,對于存入內存前的權重參數先進行壓縮,需要時再解壓縮拿來使用,,這樣做好處是,一來可以減少內存的用量,二來能獲得更高的帶寬和更低功耗。

第4種作法則是采用轉換矩陣運算domain的方式,來降低乘法運算的復雜度。一般AI或ML模型運算過程有6成以上都是矩陣的乘法運算,所以只要讓乘法運算變少,就能減少運算量,這是能夠降低運算和功耗的另一種方式。例如將復雜的矩陣運算domain轉換到較簡易Winograd卷積算法的domain做運算,就能降低乘法運算的復雜度。

最后一種方法是稀疏運算,像是運用Relu的激勵函數,在CNN模型運算過程中,使其部分神經元的輸出為零,可以讓神經網絡變得稀疏,在運算時只針對激勵函數輸入數值非零部分做運算,不處理數值為零的部分,透過這樣的處理方式,同樣能達到運算量與功耗降低的效果。

除了優化ML模型和架構外,現在硬件設計過程中,也有一些新作法,來因應TinyML需求。常見3種TinyML硬件平臺,前兩種是以低功耗和AI加速或優化的硬件設計為主,包括有低功耗通用SoC、低功耗micro-NPU,可分別對應到Arm Cortex-M55與Arm Ethos-U55系列IP產品。Arm Cortex-M55最大特色是支持最新的向量擴充指令,與Cortex-M44相比,在語音模型處理性能表現高出8倍之多。Arm Ethos-U55是ARM推出的另一款神經網絡處理器IP產品,不僅省電,在AI處理效能獲得百倍提升,甚至最新一款Arm Ethos-U6產品中,其運算能力可達到1 TOPS。

其中第3種硬件平臺是采取內存運算的硬件架構平臺,如Mythic IPU處理器等,就是采用閃存內運算來執行ML推論,足以支撐113M (百萬)權重數量和每瓦4 TOPs運算能力。

目前TinyML技術上遇到的挑戰,越來越多AI與ML應用,開始追求更高準確度,需要使用資源越來越多,包括運算、內存、功耗等,「但TinyML卻又是要在有限資源下來實現或執行不同的模型或神經網絡,這就是最大的Gap?!?/p>

舉例來說,想要提高神經網絡模型準確度,除了需要有大量的數據做訓練,數據量越大需要做的矩陣運算就更多,還有大量的參數需要調整,而且隨著架構越復雜,需要做很多層神經網絡計算,使用海量存儲器存取數據、參數和每一層計算結果。

盡管TinyML發展才剛起步,隨著AIoT或Edge AI應用越來越火紅,未來將會有越來越多嵌入式裝置結合AI或ML功能,想要真正實現TinyML,這些裝置硬件必須具備每秒兆次(trillions)的乘加法運算能力,而且這樣的運算能力須考慮到硬件空間設計,還有兼顧功耗才行。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • ARM
    ARM
    +關注

    關注

    134

    文章

    9094

    瀏覽量

    367541
  • ML
    ML
    +關注

    關注

    0

    文章

    149

    瀏覽量

    34656
  • 機器學習
    +關注

    關注

    66

    文章

    8418

    瀏覽量

    132628
  • TinyML
    +關注

    關注

    0

    文章

    42

    瀏覽量

    1237

原文標題:如何優化ML模型與硬件實現TinyML?Arm歸納出5種作法

文章出處:【微信號:易心Microbit編程,微信公眾號:易心Microbit編程】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    RAID 5 性能優化技巧

    RAID 5是一廣泛使用的磁盤陣列配置,它通過在多個硬盤之間分散數據和奇偶校驗信息來提供數據冗余和性能提升。然而,RAID 5的性能受到多種因素的影響,包括硬件選擇、配置、操作系統
    的頭像 發表于 12-27 17:05 ?119次閱讀

    Arm Corstone-320 FVP仿真平臺介紹

    開發機器學習 (ML) 應用頗具挑戰,尤其是涉及專用硬件時。好消息是,Arm Corstone-320 固定虛擬平臺 (Fixed Virtual Platform, FVP) 簡化了這個過程,無需物理
    的頭像 發表于 12-24 14:20 ?142次閱讀

    利用Arm Kleidi技術實現PyTorch優化

    PyTorch 是一個廣泛應用的開源機器學習 (ML) 庫。近年來,Arm 與合作伙伴通力協作,持續改進 PyTorch 的推理性能。本文將詳細介紹如何利用 Arm Kleidi 技術提升 A
    的頭像 發表于 12-23 09:19 ?133次閱讀
    利用<b class='flag-5'>Arm</b> Kleidi技術<b class='flag-5'>實現</b>PyTorch<b class='flag-5'>優化</b>

    AI模型部署邊緣設備的奇妙之旅:目標檢測模型

    并非易事,它涉及到從選擇合適的算法架構到針對特定硬件平臺進行優化等一系列復雜的工作。 接下來,我們將詳細介紹如何在資源受限的邊緣設備上成功部署目標檢測模型,探索其背后的原理和技術,并討論解決該領域內常見
    發表于 12-19 14:33

    如何優化自然語言處理模型的性能

    優化自然語言處理(NLP)模型的性能是一個多方面的任務,涉及數據預處理、特征工程、模型選擇、模型調參、模型集成與融合等多個環節。以下是一些具
    的頭像 發表于 12-05 15:30 ?385次閱讀

    【書籍評測活動NO.52】基于大模型的RAG應用開發與優化

    為了盡可能地解決大模型在實際應用中面臨的一些問題,特別是“幻覺”問題而誕生的,也是最重要的一優化方案。其基本思想可以簡單表述如下: 將傳統的生成式大模型與實時信息檢索技術相結合,為大
    發表于 12-04 10:50

    如何通過OSI七層模型優化網絡性能

    OSI(Open Systems Interconnection)七層模型是一標準的網絡分層模型,將網絡功能分為七個不同的層次,每個層次都有獨立的功能和協議,可以獨立地實現和升級。通
    的頭像 發表于 11-24 11:14 ?292次閱讀

    ML307A 4G模組硬件設計手冊

    基于ML307A ?4G模組的硬件設計指導手冊
    發表于 10-24 16:50 ?6次下載

    AI大模型的性能優化方法

    AI大模型的性能優化是一個復雜而關鍵的任務,涉及多個方面和策略。以下是一些主要的性能優化方法: 一、模型壓縮與優化
    的頭像 發表于 10-23 15:01 ?675次閱讀

    如何利用ARMxy ARM嵌入式計算機的NPU進行深度學習模型的訓練和優化

    在正文開始前,我們先大致了解鋇錸的ARMxy ARM嵌入式計算機,再來說說我們如何利用ARMxy ARM嵌入式計算機的NPU來實現深度學習模型的訓練和
    的頭像 發表于 08-20 13:43 ?333次閱讀
    如何利用ARMxy <b class='flag-5'>ARM</b>嵌入式計算機的NPU進行深度學習<b class='flag-5'>模型</b>的訓練和<b class='flag-5'>優化</b>?

    如何訓練一個有效的eIQ基本分類模型

    在 MCX CPU和eIQ Neutron NPU上。 eIQPortal它是一個直觀的圖形用戶界面(GUI),簡化了ML開發。開發人員可以創建、優化、調試和導出ML模型,以及導入數據
    的頭像 發表于 08-01 09:29 ?1828次閱讀
    如何訓練一個有效的eIQ基本分類<b class='flag-5'>模型</b>

    深度學習的模型優化與調試方法

    深度學習模型在訓練過程中,往往會遇到各種問題和挑戰,如過擬合、欠擬合、梯度消失或爆炸等。因此,對深度學習模型進行優化與調試是確保其性能優越的關鍵步驟。本文將從數據預處理、模型設計、超參
    的頭像 發表于 07-01 11:41 ?822次閱讀

    是德科技推出AI數據中心測試平臺旨在加速AI/ML網絡驗證和優化的創新

    2024年2月29日,是德科技(Keysight Technologies,Inc.)宣布,針對人工智能(AI)和機器學習(ML)基礎設施生態系統,推出了 AI數據中心測試平臺,旨在加速AI / ML網絡驗證和優化的創新。
    的頭像 發表于 02-29 09:32 ?637次閱讀
    是德科技推出AI數據中心測試平臺旨在加速AI/<b class='flag-5'>ML</b>網絡驗證和<b class='flag-5'>優化</b>的創新

    使用ml configurator進行tflite網絡模型的轉換不成功怎么解決?

    使用ml configurator進行tflite網絡模型的轉換不成功,提示錯誤,請幫忙協助謝謝 [ERROR] Failed to run QEMU
    發表于 01-31 06:56

    深入探討工業AI/ML技術的發展趨勢及相關解決方案

    芯科科技已經創建了一套完整的硬件和軟件解決方案,可支持開發用于工業市場的工業AI/ML解決方案。具體來說,我們的Sub-GHz、藍牙和802.15.4產品內置了硬件加速功能,可優化邊緣
    的頭像 發表于 01-29 09:42 ?490次閱讀
    主站蜘蛛池模板: 综合aⅴ| 香蕉视频一级| 婷婷第四色| 激情在线视频| 天天干天天草| 综合免费一区二区三区| 特级毛片免费看| 国产一区在线mmai| 在线五月婷婷| 九九精品久久久久久噜噜| www.乱| 1024手机在线看| 卡一卡二卡三国色天香永不失联| 国产伦精品一区二区三区免| 日本一区二区不卡视频| 一本二卡三卡四卡乱码二百| 精品卡一卡二 卡四卡视频| 毛片在线播放网址| 在线久综合色手机在线播放| 久久66haose精品| 国产成人影院| 特级一级黄色片| 午夜黄色影片| 精品视频一二三区| 国外精品视频在线观看免费| 亚洲成片在线观看12345ba| 亚洲a网| 色综合天天色| 午夜影院欧美| 欧美xx高清| 情久久| 最近高清免费观看视频大全| 中文字幕xxx| 六月丁香婷婷网| 日日干狠狠干| 亚洲国产综合久久精品| 91一区二区三区四区五区| 天天躁狠狠躁夜夜躁2021| 激情综合网婷婷| 91国内在线视频| 色综合久久久久久久久五月|