今天的計算機視覺(CV)技術正處于一個轉折點,主要趨勢正在融合,使云技術在微小的邊緣AI設備中變得無處不在。技術進步使這種以云為中心的人工智能技術能夠擴展到邊緣,新的發展將使邊緣的人工智能視覺無處不在。
有三個主要的技術趨勢使這種演變。新的精益神經網絡算法適合微型設備的內存空間和計算能力。新的硅架構為神經網絡處理提供了比傳統微控制器(MCU)高幾個數量級的效率。用于較小微處理器的AI框架正在成熟,減少了在邊緣開發微型機器學習(ML)實現(tinyML)的障礙。
當所有這些元素結合在一起時,毫瓦級的微型處理器可以擁有強大的神經處理單元,這些單元可以執行非常高效的卷積神經網絡(CNN)-視覺處理中最常見的ML架構-利用成熟且易于使用的開發工具鏈。這將在我們生活的各個方面實現令人興奮的新用例。
邊緣CV的承諾
數字圖像處理(過去的叫法)用于從半導體制造和檢測到高級駕駛員輔助系統(ADAS)功能(如車道偏離警告和盲點檢測),再到移動的設備上的圖像美化和操作等各種應用。展望未來,邊緣CV技術正在實現更高級別的人機界面(HMI)。
HMI在過去十年中發生了重大變化。除了鍵盤和鼠標等傳統界面之外,我們現在還擁有觸摸顯示屏、指紋識別器、面部識別系統和語音命令功能。在明顯改善用戶體驗的同時,這些方法還有一個共同點它們都對用戶操作做出反應。HMI的下一個層次將是通過上下文感知來理解用戶及其環境的設備。
情境感知設備不僅能感知用戶,還能感知它們所處的環境,所有這些都是為了做出更好的決策,實現更有用的自動化交互。例如,筆記本電腦可以在視覺上感知用戶何時注意,并相應地調整其行為和電源策略。Synaptics的Emza Visual Sense技術已經實現了這一點,OEM可以使用該技術在用戶不觀看顯示器時自適應調暗顯示器以優化功耗,從而降低顯示器的能耗。通過跟蹤旁觀者的眼球(旁觀者檢測),該技術還可以通過提醒用戶并隱藏屏幕內容來增強安全性,直到海岸清晰。
另一個例子:智能電視機感知是否有人在觀看以及從哪里觀看,然后相應地調整圖像質量和聲音。它可以自動關閉,以保存電力時,沒有人在那里?;蛘?,空調系統根據房間占用情況優化電力和氣流,以保存能源成本。這些和其他建筑物中智能能源利用的例子在家庭-辦公室混合工作模式下變得更加重要。
在工業領域中,視覺感測也有無窮無盡的用例,從用于安全監管的物體檢測(即,限制區、安全通道、防護裝備執行)直到用于制造過程控制的異常檢測。在農業技術中,作物檢查以及CV技術實現的狀態和質量監控都至關重要。
無論是在筆記本電腦、消費電子產品、智能建筑傳感器還是工業環境中,當微型和負擔得起的微處理器、微型神經網絡和優化的人工智能框架使設備更加智能和節能時,這種環境計算能力就可以實現。nbsp;
神經網絡視覺處理的發展
2012年是CV開始從啟發式CV方法轉向深度卷積神經網絡(DCNN)的轉折點,Alex Krizhevsky和他的同事發表了AlexNet。DCNN在那年贏得ImageNet大規模視覺識別挑戰賽(ILSVRC)后就再也沒有回頭路了。
從那時起,地球儀的團隊一直在尋求更高的檢測性能,但對底層硬件的效率沒有太多的關注。所以CNN仍然是數據和計算饑渴的。這種對性能的關注對于在云基礎設施中運行的應用程序來說是很好的。
2015年,ResNet152被引入。它有6000萬個參數,單次推理操作需要超過11gigaflops,并且在ImageNet數據集上表現出94%的前5名準確率。這繼續推動CNN的性能和準確性。但直到2017年,隨著谷歌的一組研究人員發表了MobileNets,我們才看到了效率的提升。
MobileNets-針對智能手機-比當時現有的神經網絡(NN)架構輕得多。例如,MobileNetV 2有350萬個參數,需要336 Mflops。這種大幅減少最初是通過艱苦的勞動實現的-手動識別深度學習網絡中的層,這并沒有增加太多的準確性。后來,自動化的架構搜索工具允許進一步改進層的數量和組織。在內存和計算負載方面,MobileNetV 2比ResNet 192大約“輕”20倍,表現出90%的前5名準確率。一組新的移動友好應用程序現在可以使用AI。
硬件也在不斷發展
通過更小的NN和對所涉及的工作負載的清晰理解,開發人員現在可以為微型AI設計優化的硅。這導致了微神經處理單元(微NPU)。通過嚴格管理內存組織和數據流,同時利用大規模并行性,這些小型專用核心可以比典型MCU中的獨立CPU快10倍或100倍地執行NN推理。一個例子是Arm Ethos U55微型NPU。
讓我們來看看microNPU(μ NPU)影響的一個具體示例。CV的基本任務之一是對象檢測。物體檢測本質上需要兩個任務:定位,確定物體在圖像中的位置,以及分類,識別檢測到的物體(圖2)。
Emza在Ethos U55 μNPU上實現了一個人臉檢測模型,訓練了一個對象檢測和分類模型,該模型是單鏡頭檢測器的輕量級版本,由Synaptics優化,僅用于檢測人臉類別。結果令我們驚訝,模型執行時間不到5毫秒:這與強大的智能手機應用處理器(如Snapdragon 845)的執行速度相當。當在使用四個Cortex A53內核的Raspberry Pi 3B上執行相同的模型時,執行時間要長六倍。
AI框架和民主化
廣泛采用任何像ML這樣復雜的技術都需要良好的開發工具。TensorFlow Lite for Microcontrollers(TFLM)是一個框架,旨在更輕松地為tinyML訓練和部署AI。對于完整TensorFlow所涵蓋的運算符子集,TFLM會發出微處理器C代碼,用于在μNPU上運行解釋器和模型。來自Meta的PyTorch移動的框架和Glow編譯器也針對這一領域。此外,現在有很多AI自動化平臺(稱為AutoML)可以自動化針對微小目標的AI部署的某些方面。例如Edge Impulse、Deeplite、Qeexo和SensiML。
但要在特定硬件和μ NPU上執行,必須修改編譯器和工具鏈。Arm開發了Vela編譯器,可以優化U55 μ NPU的CNN模型執行。Vela編譯器通過自動在CPU和μ NPU之間分割模型執行任務,消除了包含CPU和μ NPU的系統的復雜性。
更廣泛地說,Apache TVM是一個開源的,端到端的ML編譯器框架,用于CPU,GPU,NPU和加速器。TVM micro的目標是微控制器,其愿景是在任何硬件上運行任何AI模型。AI框架、AutoML平臺和編譯器的這種演變使開發人員更容易利用新的μ NPU來滿足他們的特定需求。
無處不在的邊緣AI
在邊緣無處不在的基于ML的視覺處理的趨勢是明確的。硬件成本正在下降,計算能力正在顯著提高,新的方法使訓練和部署模型變得更加容易。所有這些都減少了采用的障礙,并增加了CV AI在邊緣的使用。
但是,即使我們看到越來越普遍的微小邊緣AI,仍然有工作要做。為了使環境計算成為現實,我們需要服務于許多細分領域的長尾用例,這些用例可能會帶來可擴展性挑戰。在消費品、工廠、農業、零售和其他領域,每個新任務都需要不同的算法和獨特的數據集進行訓練。解決每個用例所需的研發投資和技能組合仍然是當今的主要障礙。
這一差距最好由人工智能公司通過開發豐富的模型示例集("模型動物園")和應用程序參考代碼來圍繞其NPU產品升級軟件來填補。通過這樣做,他們可以為長尾提供更廣泛的應用,同時通過針對目標硬件優化正確的算法來確保設計成功,以在定義的成本、大小和功耗限制范圍內解決特定的業務需求。
審核編輯 黃宇
-
人工智能
+關注
關注
1791文章
47274瀏覽量
238468 -
計算機視覺
+關注
關注
8文章
1698瀏覽量
45993 -
NPU
+關注
關注
2文章
284瀏覽量
18610 -
邊緣AI
+關注
關注
0文章
94瀏覽量
4998 -
TinyML
+關注
關注
0文章
42瀏覽量
1237
發布評論請先 登錄
相關推薦
評論