ARm發(fā)布了兩款針對移動終端的AI芯片架構(gòu),物體檢測(Object Detection,簡稱OD)處理器和機(jī)器學(xué)習(xí)(Machine Learning,簡稱ML)處理器。
以往,ARM都是架構(gòu)準(zhǔn)備好了,才發(fā)公告。這次一反常態(tài),沒貨卻先發(fā)公告:OD處理器,計(jì)劃在第一季度才能提供給合作伙伴;ML處理器得等到年中,這也看出了ARM很焦急。
畢竟在過去的幾個月中,尤其是在移動端圈子里,機(jī)器學(xué)習(xí)在半導(dǎo)體行業(yè)中很熱。
好幾家提供芯片架構(gòu)的公司都宣布了提供消費(fèi)者解決方案,連華為都開始自主研發(fā)架構(gòu)了。那么多玩家入場,ARM卻沒啥動作。
直到現(xiàn)在,ARM才把重點(diǎn)放在了Armv8.2的cpuISA擴(kuò)展上,該擴(kuò)展借助半精度浮點(diǎn)和整數(shù)點(diǎn)產(chǎn)品來簡化和加速神經(jīng)網(wǎng)絡(luò)的專用指令。
除了CPU的改進(jìn)之外,還看到了G72中機(jī)器學(xué)習(xí)的gpu改進(jìn)。雖然這兩項(xiàng)改進(jìn)都有所幫助,但想要最大性能和效率,這些改進(jìn)還不夠。
在測試Kirin 970的NPU和Qualcomm的DsP時,可以看出,專用架構(gòu)上運(yùn)行推理的效率,比在CPU上運(yùn)行的效率高出一個數(shù)量級以上。
正如ARM官方解釋的那樣,Armv8.2和GPU的改進(jìn)只是建立機(jī)器學(xué)習(xí)解決方案的第一步,還必須研究對專用解決方案的需求。
ARM也從合作的小伙伴那里感受到了行業(yè)的壓力,才熬出來ML處理器。
下面簡單介紹一下這次發(fā)布的兩個新的架構(gòu):機(jī)器學(xué)習(xí)ML處理器以及OD處理器。
ML處理器,是專門為加速神經(jīng)網(wǎng)絡(luò)模型推理所設(shè)計(jì)的。這種架構(gòu)比傳統(tǒng)的CPU和GPU架構(gòu)有明顯的優(yōu)勢。
在執(zhí)行機(jī)器學(xué)習(xí)任務(wù)時,這款ML處理器可為數(shù)據(jù)優(yōu)化內(nèi)存管理。
這款處理器具有數(shù)據(jù)可高度重復(fù)使用的特點(diǎn),能最大限度地減少數(shù)據(jù)的輸入和輸出,從而實(shí)現(xiàn)高性能和高效率。
ML處理器,理論上可在1.5W功率下,有超過4.6TOPs(8位整數(shù))的理論吞吐量,最高可達(dá)3TOPs / W。
雖然TOPs值并不能完全體現(xiàn)處理器的性能,不過它對于行業(yè)標(biāo)準(zhǔn)化仍然有用。
作為一個完全獨(dú)立的獨(dú)立IP(電路功能)模塊,ML處理器具有自己的ACE-Lite接口,可集成到SoC中,也可以集成到DynaMIQ中。
此外,ARM沒有透露ML處理器更多的架構(gòu)信息。
OD處理器,是針對物體檢測的任務(wù)進(jìn)行了優(yōu)化。盡管ML處理器也能完成相同的任務(wù),但OD處理器可以更快。給單項(xiàng)任務(wù)提供專用架構(gòu),才能夠獲得最大效率。
ARM也考慮到了可能會出現(xiàn)OD和ML處理器集成在一起用的情況:OD處理器負(fù)責(zé)把圖像中的目標(biāo)處理區(qū)分割出來,然后把它們傳遞給ML處理器,進(jìn)行更細(xì)顆粒度的處理。
ARM還提供大量軟件,幫助開發(fā)人員將他們的神經(jīng)網(wǎng)絡(luò)模型應(yīng)用到不同的NN框架中。從今天開始,這些軟件大家可以在ARM開發(fā)者網(wǎng)站找到,同時也在Github上提供。
考慮到SoC開發(fā)的周期,基于新架構(gòu)的芯片大概得在2019年年中或年末才能發(fā)布。ARM這次,可以說半導(dǎo)體及架構(gòu)供應(yīng)商中響應(yīng)AI趨勢比較慢的企業(yè)了。
-
ARM
+關(guān)注
關(guān)注
134文章
9164瀏覽量
368648 -
華為
+關(guān)注
關(guān)注
216文章
34530瀏覽量
252627
原文標(biāo)題:【Computex快訊】Arm發(fā)表移動迭代芯架構(gòu):尚未確定與華為是否“全面停止合作”
文章出處:【微信號:DIGITIMES,微信公眾號:DIGITIMES】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論