一款新的64位MPU RZ/V2H,為瑞薩電子的RZ/V系列帶來了針對邊緣AI的重大升級。邊緣AI是指在連接網絡的邊緣進行的AI處理。優勢在于嵌入式和本地處理系統,如安全設備、家用機器人和家用電器;相比之下,云AI處理是在中央服務器群中進行的。
瑞薩電子的RZ/V系列微處理器均采用多核技術,并針對本地機器視覺處理進行了優化。新的RZ/V2 H通過額外的處理器內核、更快的處理速度和更低的功耗大大提高了賭注,在Resnet 50(一種50層深度卷積神經網絡架構)上提供高達80 tera/s的操作(TOP)。
瑞薩64位RZ/V視覺AL MPU產品線
它還包括AI分類模型,效率高達每瓦10個TOP。相比之下,該系列中之前的MPU在Resnet50上的最高速度為1 TOP和28 fps。
多達10個處理核心
RZ/V2 H配備了四核Cortex-A55,雙核Cortex-R8,Cortex-M33,Renesas DRP,Renesas DRP-AI以及可選的硬件圖像信號處理器(ISP)。A55通常運行Linux進行整體系統控制和處理。四核使MPU能夠以高達830 fps的速度同時支持四個4K分辨率攝像頭。實時操作,如電機控制和通信,可以卸載到R8。200 MHz M33處理后臺任務,如電源管理和喚醒任務。
RZ/V2 H應用示意圖
硬件ISP是從相機獲取圖像數據的第一站。由于有些相機有自己的ISP,瑞薩電子提供的RZ/V2 H有或沒有硬件ISP部分。最后,DRP和DRP-AI提供OpenCV兼容性,并執行大部分AI處理。這為智能家居和辦公設備、工業安全產品和基礎設施設備提供了強大的處理器選項。它允許設備執行AI操作,如圖像識別,識別和決策,而無需調用服務器進行任何操作,但最復雜的AI操作。更多信息可以在RZ/V2 H手冊中找到。
更高的計算性能,更低的電力消耗
當小封裝決定了低熱量和低功耗預算時,僅僅增加內核或提高時鐘速度來提高性能是不夠的。在這方面,RZ/V2 H沒有讓人失望。它具有核心和時鐘速度,但它也使用了精心的優化來增加功能,同時降低功耗。
瑞薩電子專有的動態可重編程處理器(DRP)是一種可重新配置的處理引擎,可以適應不同的任務。它足夠靈活,可以根據需要隨每個時鐘周期進行更改。在RZ/V2H中,DRP系統卸載了預處理和后處理。 DRP處理OpenCV兼容性,而針對AI數學優化的DRP—AI執行最繁重的AI計算。瑞薩表示,V3的能效是V2的10倍。
矩陣計算現在使用INT 8數據量化,而不是DRP-AI V2中使用的FP 16。從浮點數降為整數似乎是一個很大的妥協,但在這個應用程序中,它不是。MPU使用Resnet 50模型,該模型使用INT 8數據保持高精度。遷移到INT 8可以將數學性能提高14倍。與此同時,它將數據密度減半,從而使功率效率比FP 16高出2倍。
DRP中的非結構化剪枝
一個稱為非結構化修剪的過程帶來了進一步的性能提升和功耗降低。AI模型會查看加權值,較大的值具有更大的意義,并且導致匹配的可能性更大。修剪將所有接近零的權重設置為零。
FP 16在早期MPU版本中沒有修剪(左),而INT 8在RZ/V2 H中具有稀疏修剪(右)。nbsp;
由于結果將為零,沒有值朝向最終結果,DRP—AI引擎跳過任何權重等于零的操作。保留零權重被稱為密集修剪,而跳過它們被稱為稀疏修剪。這使得AI模型更小,更快,更高效,在從FP16切換到INT 8獲得的2倍功率效率的基礎上,功率效率提高了約5倍。
根據瑞薩電子的基準測試,INT8和稀疏修剪的結合顯著提高了常見競爭產品的性能。
競爭性基準測試說明RZ/V2H的性能優勢
密集修剪提供了兩倍的性能,而稀疏修剪使AI性能進一步提高了約3倍。在一個典型的應用中,設備必須處理視頻,識別對象,并根據觀察結果做出決策,處理器中的AI計算速度直接轉化為設備操作的速度。機器人可以更快地移動,警報可以更快地觸發,任何必要的響應都可以更快地啟動。
無需風扇
與競爭對手的基于GPU的嵌入式AI相比,DRP和DRP-AI提高了性能并顯著降低了功耗。在機器人真空用例中,RZ/V2 H以低于4 W的功率為AI同步定位和地圖繪制(SLAM)提供13 fps的幀率,從而在大多數應用中無需冷卻風扇。這意味著更安靜的操作和更長的電池壽命。RZ/V2 H現在可以作為組件和開發板從標準瑞薩分銷渠道購買。
-
MPU
+關注
關注
0文章
359瀏覽量
48795 -
瑞薩電子
+關注
關注
37文章
2866瀏覽量
72207 -
邊緣AI
+關注
關注
0文章
94瀏覽量
4998
發布評論請先 登錄
相關推薦
評論