電子發(fā)燒友網(wǎng)報道(文/周凱揚(yáng))AI應(yīng)用如同燃起的野火一般,從消費(fèi)級的手機(jī)端,出現(xiàn)在了工業(yè)級的超級游輪和航空級的空間站上。然而在邊緣端,這些應(yīng)用遇上了傳統(tǒng)應(yīng)用也掙扎了數(shù)年的需求:更高的性能、更大的容量和更低的功耗。
更糟糕的是,機(jī)器學(xué)習(xí)模型正在以指數(shù)級的速度增長,每3到5個月就會翻一番。要想應(yīng)用這些模型的話,傳統(tǒng)的計算芯片已經(jīng)難以利用有限的內(nèi)存資源和功率提供高性能,連數(shù)據(jù)中心都在AI工作負(fù)載上感到吃力了,更不用說在邊緣側(cè)運(yùn)行的大型模型。為此,邊緣AI處理器成了不少芯片大廠和初創(chuàng)企業(yè)的發(fā)力方向。然而在處理器的選取上,并不是僅僅看算力、功耗和成本而已。
邊緣AI處理器的選擇
首先,AI芯片公司不僅要有硬件開發(fā)實(shí)力,也要具備強(qiáng)大的AI軟件棧和工具。比如英特爾或英偉達(dá)之類的廠商,其CPU或GPU設(shè)計早已為TensorFlow、Caffe或Pytorch等框架提供了支持,但初創(chuàng)企業(yè)自研架構(gòu)的AI處理器往往需要打造自己的編譯器來支持這些框架。
其次,是處理器支持的神經(jīng)網(wǎng)絡(luò)精度。多數(shù)邊緣AI處理器精度并不高,這是因?yàn)閷⑸窠?jīng)網(wǎng)絡(luò)轉(zhuǎn)換為低精度簡化了硬件設(shè)計,同時也極大地降低了功耗。要想保持高精度的話,往往需要重新訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
Nvidia - Jetson Xavier NX
英偉達(dá)于2019年公布了一款名為“Jetson Xavier NX”的AI處理器,專門用于邊緣系統(tǒng)和嵌入式應(yīng)用。Jetson Xavier NX只有70mm x 45mm的大小,卻可以在15W的功耗下提供21 TOPS(INT8)的AI算力。
Jetson Xavier NX集成了6核CPU、384核GPU、48個Tensor核心、2個NVDLA深度學(xué)習(xí)加速器和7路VLIW視覺處理器加速器。其中CPU選用了英偉達(dá)Carmel Arm核心,GPU則是基于Volta架構(gòu)。該處理器還配備了8GB 128位的LDDR4x內(nèi)存,可提供59.7GB/s的帶寬性能。
英偉達(dá)已經(jīng)為用戶提供了開發(fā)者套件,可以創(chuàng)建高性能的AI應(yīng)用,并快速部署深度神經(jīng)網(wǎng)絡(luò)模型和常見的機(jī)器學(xué)習(xí)框架,比如Tensorflow和Pytorch等,除此之外也可以用到cuDNN、TensorRT和DeepStream等一系列軟件庫和加速工具。
Jetson Xavier NX最大的優(yōu)勢在于其Jetson產(chǎn)品線全部基于同一軟件棧,所以可以直接套用更強(qiáng)大的Jetson AGX Xavier上的AI應(yīng)用,只不過算力要稍低一截而已。憑借其21TOPS的AI算力,加上加速器提供的視頻處理器性能,可以毫無壓力地完成人體識別、自研語言處理、姿勢檢測和注視檢測等AI應(yīng)用,適用于自動光學(xué)檢測和智能攝像頭等一系列邊緣IoT設(shè)備。
Hailo - Hailo-8
Hailo是一家來自于以色列的AI芯片公司,不少核心開發(fā)成員來自于以色列國防科技部門,主要負(fù)責(zé)為邊緣設(shè)備開發(fā)高性能的AI處理器。早在2019年,Hailo就公布了其自研的邊緣AI處理器Hailo-8,其算力可達(dá)26TOPS(INT8),但該處理器的典型功耗僅有2.5W。在完成了多輪融資后,Hailo也在今年開始了Hailo-8的量產(chǎn)。
Hailo-8與Jetson產(chǎn)品的對比 / Hailo
與傳統(tǒng)的CPU、GPU、DSP或硬件加速器的架構(gòu)不同,Hailo在這款處理器上運(yùn)用了自研的結(jié)構(gòu)定義數(shù)據(jù)流架構(gòu)。在ResNet-50的神經(jīng)網(wǎng)絡(luò)測試中,Hailo-8取得了1330FPS@3.2W的成績。Hailo還在官網(wǎng)曬出出了Hailo-8與英偉達(dá)Jetson Nano與Xavier NX在ResNet和SSD_MobileNet等模型下的預(yù)期表現(xiàn)對比,我們從上圖可以看出,Hailo-8在性能上優(yōu)勢明顯,能耗比更是讓英偉達(dá)的兩款Jetson處理器望塵莫及。
Hailo還準(zhǔn)備好了開源的Model Zoo,其中囊括了物體識別、分類、人臉檢測識別等60多種計算機(jī)視覺任務(wù)的深度學(xué)習(xí)模型。開發(fā)者利用這些預(yù)訓(xùn)練的Tensorflow和ONNX模型,只需用上自己的數(shù)據(jù)重新訓(xùn)練,即可在Hailo設(shè)備上迅速創(chuàng)建好原型。
Mythic - M1076
美國德州的初創(chuàng)公司Mythic推出了利用存內(nèi)計算技術(shù)的M1076模擬矩陣處理器(AMP)。單個M1076芯片的面積只有360mm2,卻可以在3W至4W的功耗下提供35 TOPS的算力,與常見的SoC或GPU方案相比,功耗低了10倍以上。
但這并不是M1076的最大特色,與傳統(tǒng)數(shù)字計算方式不同,Mythic在M1076上運(yùn)用了模擬計算。模擬計算雖然理論上要要與數(shù)字計算,但長久以來收到尺寸的限制,在速度與擴(kuò)展性上一直提不上去。然而Mythic通過將模擬運(yùn)算與嵌入式閃存結(jié)合,選擇了存內(nèi)計算的方式。
M1076同時支持INT4、INT8和INT16三種數(shù)據(jù)類型,非常適合作為TinyML的開發(fā)平臺。Mythic也為客戶提供了物體識別/分類、圖像分割和姿勢評估等模型,可用于AR/VR中的智能健身和游戲等應(yīng)用。
小結(jié)
云計算在邊緣端的弱勢使得邊緣AI處理器有了崛起的機(jī)會,在工業(yè)4.0、自動化系統(tǒng)和智能IoT的潮流下,邊緣AI還需要繼續(xù)開拓應(yīng)用場景,而不僅僅是用于機(jī)器視覺任務(wù)。邊緣AI處理器廠商也必須繼續(xù)提供更多的模型,幫助開發(fā)者加速邊緣AI應(yīng)用的落地。
聲明:本文由電子發(fā)燒友原創(chuàng),轉(zhuǎn)載請注明以上來源。如需入群交流,請?zhí)砑游⑿舉lecfans999,投稿爆料采訪需求,請發(fā)郵箱huangjingjing@elecfans.com。
編輯:jq
-
處理器
+關(guān)注
關(guān)注
68文章
19381瀏覽量
230454 -
芯片
+關(guān)注
關(guān)注
456文章
51017瀏覽量
425327 -
AI
+關(guān)注
關(guān)注
87文章
31259瀏覽量
269615 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8428瀏覽量
132832
原文標(biāo)題:邊緣AI處理器拼的不僅是算力和功耗
文章出處:【微信號:elecfans,微信公眾號:電子發(fā)燒友網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論