(文章來源:雷鋒網)
隨著AI算法的逐步成熟以及芯片算力的提升,歷經幾年的熱潮之后,AI技術只有落地應用才能獲得進一步的發展。不過,算法需求與芯片算力不匹配的需求成為了AI落地的一大障礙,AI軟硬一體化成為關鍵。但在軟硬一體化提高效率的同時,如何滿足多樣化的需求也非常關鍵,定制化成為了趨勢。
這一輪AI熱潮,不僅讓越來越多的人認識和了解了AI技術,AI也正在成為每臺智能設備日常工作的一部分。事實證明,深度神經網絡(DNN)非常有用,但是AI的進一步發展和落地仍有很多挑戰。比如,如何使得現有解決方案跟上發展趨勢?如何擴展解決方案?如何以成熟的工具鏈縮短TTM(Time to Market)和降低成本?
面對這些問題,需要整個產業鏈的協作,共同滿足市場的需求。根據市場研究機構的報告,到2022年,全球具有計算機視覺/機器視覺相繼的規模將超過15億個,包括智能手機、安防、消費電子、汽車圖像傳感器、工業等。這就意味著,定制化的AI加速器可以更好地滿足市場的不同需求,但與此同時,AI在邊緣端的落地也面臨挑戰。CEVA營銷副總裁Moshe Sheier認為,在邊緣AI中,AI的落地面臨的問題就是數據量太大且運算太復雜,芯片的算力非常關鍵。
Moshe Sheier近日接受雷鋒網采訪時表示,AI算法公司在做落地項目的時候,受困于硬件算力不足的問題,可能會犧牲很多特性。所以我們現在希望算法公司能夠向芯片公司提出更多的需求,讓芯片的設計能夠更好地滿足算法需求。只有算法的效率提高了,AI才能更好的落地。
提到效率,無法避開的問題就是AI到底需要專用還是通用的芯片,通用的芯片能夠更好適應算法的演進,但算力不及專用芯片。Moshe Sheier認為,AI加速器一定是一個趨勢,同時,視頻DSP在AI中非常重要,因為AI算法還有很多不確定性。如今算法公司不會只采用一種神經網絡,而是會進行組合。運行多個神經網絡模型就一定會涉及對結果進行CV的處理,這時候CPU可能會面臨一些瓶頸。我們的XM DSP針對了所有流行的神經網絡都進行了優化,能夠更好的滿足多神經網絡的算法。
基于對流行神經網絡特征的理解,CEVA在今年9月推出了第二代面向邊緣設備的AI推理處理器架構NeuPro-S,NeuPro-S系列包括NPS1000、NPS2000和NPS4000,它們是每個周期分別具有1000、2000和4000個8位MAC的預配置處理器。NPS4000具有最高的單核CNN性能,在1.5GHz時可達到12.5 TOPS,并且可完全擴展,最高可達到100 TOPS。
根據官方的說法,與CEVA第一代AI處理器相比,NeuPro-S的性能平均提升50%,內存帶寬和功耗分別降低了40%和30%。這種性能的提升主要來自硬件還是軟件的優化?Moshe Sheier表示主要是來自硬件,因為CEVA在NeuPro-S中增加了離線的權重壓縮和硬件的權重解壓縮。
之所以要這么做,是因為神經網絡與視頻編解碼不太一樣,即便很小的圖片,引入卷積后權重的數據量非常大,因此帶寬成為了AI處理器的瓶頸。而CEVA采用的多重權重壓縮,可分為兩種方式,一種是零值和非零值,可以用4bit或者8bit表示,另一種是通過查表的方式,通過共用權重,只傳一次數據,減少對帶寬的需求。
不僅如此,NeuPro-S還支持多級內存系統。具體而言,就是加入了L2內存的支持,用戶通過設置L2的大小,可以盡量把數據放在L2的緩存,減少使用外部SDRAM,降低傳輸成本。Moshe Sheier指出,硬件增加L2并不復雜,CEVA主要的工作是在我們CNDD軟件框架中加入對L2內存的支持。
因此,NeuPro-S相比上一代NeuPro非常重要的工作就是進行帶寬的優化,這樣才有可能達到理論設計的利用率。雷鋒網(公眾號:雷鋒網)了解到,CEVA設計神經網絡引擎時最關注的問題就是乘法利用率,CEVA借助DSP設計的豐富經驗,設計出的神經網絡引擎理論的乘法利用率在80%-90%、雖然實際利用率會低于理論值,但NeuPro-S帶寬的增大將能夠減少數據的等待,能提高乘法利用率。
最終,經設計優化NeuPro-S,能夠對邊緣設備中視頻和圖像中的物品進行分割、檢測和分類神經網絡,顯著提高系統感知性能。除了支持多級內存系統以減少使用外部SDRAM的高成本傳輸,并支持多重壓縮選項和異構可擴展性,提升算力滿足AI算法的需求。
(責任編輯:fqj)
-
芯片
+關注
關注
456文章
51121瀏覽量
426020 -
AI
+關注
關注
87文章
31429瀏覽量
269824
發布評論請先 登錄
相關推薦
評論