本文討論了推動視覺應用快速發(fā)展和影響行業(yè)未來的關鍵趨勢,解釋了這些趨勢背后的推動因素,并強調了對技術供應商、解決方案開發(fā)者和最終用戶的關鍵影響。
早在2011年嵌入式視覺聯(lián)盟(EVA)成立時,其創(chuàng)始公司就認為,在廣泛的市場范圍內(nèi),在實用計算機視覺技術和解決方案領域的投資、創(chuàng)新和部署,將很快出現(xiàn)前所未有的增長。在不到十年后,這一預測就真正實現(xiàn)了。在過去的六年中,美國和中國在計算機視覺公司領域的投資都在加速,過去六年的投資額增長了100倍,并且增長速度沒有任何放緩的跡象(見圖1a)。
圖1a:全球在計算機視覺公司領域的投資顯著增加,并且沒有放緩跡象。(來源:Woodside Capital/Crunchbase)
這些投資正在刺激這些公司及其合作伙伴和客戶加速在視覺領域的研究、開發(fā)和部署活動。EVA會定期對視覺開發(fā)者社區(qū)就各種主題開展調查,最新調查結果表明,93%的被調查組織表示,未來一年中在視覺領域的投入會增加(其中61%表示會大幅增加)(見圖1b)。
圖1b:2019年,開發(fā)者在視覺領域的投入將顯著增加。(來源:EVA)
預計這些增加的活動將轉化為收入的增加;例如,Tractica最近發(fā)布的一份市場研究報告預測,從現(xiàn)在到2025年,計算機視覺市場(包括硬件、軟件和服務,見圖1c)的收入將增加25倍,到2025年將超過260億美元。
圖1c:全球范圍內(nèi)對計算機視覺相關公司的投資,將驅動這些公司未來的收入大幅增長。
(來源:Tractica)
其中,有四大關鍵趨勢正在驅動這些增長,它們分別是:(1)深度學習;(2)3D傳感;(3)快速、便宜、節(jié)能的處理器;(4)硬件和軟件的普及化。
趨勢一、深度學習
傳統(tǒng)上,計算機視覺應用依賴于專用的算法,這些算法經(jīng)過精心設計以識別特定的特征(如邊緣、角落、物體)。然而最近,卷積神經(jīng)網(wǎng)絡(CNN)和其他深度學習方法已經(jīng)在各種圖像理解任務上,表現(xiàn)得優(yōu)于傳統(tǒng)算法。與傳統(tǒng)算法相比,深度學習方法是通過實例訓練的通用學習算法,來識別特定的特征,包括物體類型和位置。深度神經(jīng)網(wǎng)絡(DNN)已經(jīng)改變了計算機視覺領域,其在識別物體、在一幀圖像內(nèi)定位物體以及確定哪個像素屬于哪個物體等功能上,都提供了優(yōu)越的結果。即使是像光流和立體匹配這樣的已經(jīng)用傳統(tǒng)技術能很好地解決的問題,現(xiàn)在也可以用深度學習技術找到更好的解決方案。
此外,基于深度學習的視覺處理方法,在解決許多問題上都優(yōu)于傳統(tǒng)的計算機視覺算法。ImageNet圖像識別挑戰(zhàn)賽獲獎者的結果表明,從幾年前開始,在相同的任務和相同的數(shù)據(jù)集中,深度學習在識別物體方面的準確性開始超過典型的人類功能(見圖2a)。深度神經(jīng)網(wǎng)絡也被訓練、以填補照片中缺失的補丁,與能夠熟練處理圖片的操作員的技能相匹配,同時能夠比人更快地提供處理結果。而且,訓練有素的神經(jīng)網(wǎng)絡甚至開始產(chǎn)生遠超越技術嫻熟的人類所能做出的成就,例如從非常差的曝光照片中產(chǎn)生可接受的圖像(見圖2b)。
圖2a:現(xiàn)在深度學習算法在圖像中精確識別物體的能力,已經(jīng)能夠與人類的能力相匹配。(來源:www.eff.org/ai/metrics)
圖2b:在某些情況下,深度學習算法可以產(chǎn)生超出人類能力的結果。(來源:Learning to See in the Dark, Chen Chen, Qifeng Chen, Jia Xu and Vladlen Koltun, CVPR 2018)
因此,不出所料,計算機視覺開發(fā)人員正越來越多地將深度學習技術添加到他們的工具箱中(見圖3)。EVA最近的調查結果顯示,59%的視覺系統(tǒng)和解決方案開發(fā)者已經(jīng)在使用DNN,比兩年前的34%大幅增加。28%的人計劃在不久的將來使用DNN用于視覺智能。總體來看,87%的開發(fā)者已經(jīng)使用或計劃使用神經(jīng)網(wǎng)絡來執(zhí)行計算機視覺功能。
圖3:87%的開發(fā)者已經(jīng)使用或計劃在不久的將來使用神經(jīng)網(wǎng)絡來執(zhí)行計算機視覺功能。(來源:EVA)
趨勢二、3D傳感
2D圖像傳感器能夠在許多嵌入式視覺系統(tǒng)設計中,實現(xiàn)巨大的視覺能力。然而,它們無法辨別物體與傳感器之間的距離,這將導致某些視覺功能的實現(xiàn)非常困難或是無法實現(xiàn)。例如,手勢接口實現(xiàn)。識別運動的能力,包括上下、左右和前后,能夠大大擴展系統(tǒng)能夠解讀的手勢的多樣性、豐富性和精確性。或者是人臉識別情況(見圖4):深度傳感在“確定被識別的物體是真實的人臉而非人臉的照片”方面,也很有價值。
圖4:人臉識別(上圖)和視覺同步定位和映射(下圖)是3D圖像傳感所實現(xiàn)的眾多功能中的兩個。(來源:appleinsider.com/pcc.disam.etsii.upm.es)
ADAS(汽車高級駕駛輔助系統(tǒng))和其他受益于3D傳感器的半自動和全自動設備應用也非常豐富。例如,你可以很容易地想象,在公路上,你不僅能夠確定另一輛車或物體在你的前方或后方,而且還能準確地辨別它與你之間的距離。準確地確定車輛與限速標志之間的距離,對于確定多久必須把車速降下來、進而避免罰單同樣非常有用。
同樣,用于3D打印的3D物體掃描也是一個重要的應用案例。幸運的是,最近將3D光學傳感器引入手機和汽車等大批量生產(chǎn)應用中,不但加速了創(chuàng)新,而且使尺寸、成本和3D傳感的復雜性都有所降低(見圖5)。3D相機模塊通常包括某種形式的紅外照明,其同樣得益于最近顯著的成本降低趨勢,它在低光環(huán)境中以及在監(jiān)控戴太陽鏡的車輛駕駛員的注意力方面,非常有用。
圖5:最新一代小型、低成本、低功耗3D相機實現(xiàn)了強大的視覺部署(上圖);它們的紅外照明模塊同樣越來越具有成本效益(下圖)。(來源:Microsoft/Intel/Occipital/Yole Développement)
在微軟Kinect游戲機外設首次亮相8年后,現(xiàn)在3D相機模塊已經(jīng)準備好部署在成本和功率敏感的應用中。計算機視覺開發(fā)者正在對3D傳感采取積極行動和積極預測。EVA最近的調查顯示,近30%的開發(fā)者已經(jīng)在使用3D傳感,26%的開發(fā)者計劃近期內(nèi)在其項目中采用3D傳感功能(見圖6)。
圖6:55%的受訪開發(fā)者表示,他們已經(jīng)開始使用或計劃近期在他們的計算機視覺項目中加入3D傳感技術,該比例比去年增加了4%。(來源:EVA)
趨勢三、更好的處理器
推動強大而廣泛的視覺感知可部署性的最重要因素,是更好的處理器。“更好”是指更高的性能、更低的成本、更低的功耗,以及其他關鍵因素的改進。視覺算法對計算性能要求很高,各種嵌入式系統(tǒng)通常需要滿足低成本和低功耗的要求。在數(shù)字無線通信和以壓縮為中心的消費視頻設備等其他應用領域,芯片設計人員通過使用專用協(xié)處理器和加速器,獲得高性能、低成本和低功耗的極具挑戰(zhàn)性的組合,從而實現(xiàn)應用中最苛刻的處理任務。然而,這些協(xié)處理器和加速器通常不能由芯片用戶編程。
在很多標準應用中,這種權衡通常是可以接受的,因為在這些應用中,不同設計者使用的算法具有很強的通用性。然而,在視覺應用中,并沒有標準來約束算法的選擇。此外,視覺算法發(fā)展迅速,并且變化頻繁。
因此,實現(xiàn)高性能、低成本、低功耗和可編程性的結合,是一項非常具有挑戰(zhàn)性的工作,通常需要在異構計算體系結構中通過組合多種類型的處理器(CPU、GPU、FPGA、DSP等)來實現(xiàn)。
基于機器學習的視覺處理,無論對于預先培訓還是隨后的推理任務而言,從計算和存儲需求來看,都是資源密集型的工作。幸運的是,視覺處理器正在以驚人的速度發(fā)展,一方面開發(fā)速度非常快,另一方面來自數(shù)量龐大且仍在增長的技術供應商方面的競爭壓力。例如,現(xiàn)在有50多家公司同時在為深度學習推理和/或訓練開發(fā)處理器。在過去的幾年中,深度學習加速的處理能力,已經(jīng)有了兩個數(shù)量級的提升,這些性能的提升與多方技術進步相結合,將使處理器的處理能力呈指數(shù)級增長。
EVA最近在開發(fā)者調查中收集的數(shù)據(jù)顯示,深度學習專用處理器的采用顯著增加;近1/3的受訪者表示現(xiàn)在正在使用深度學習專用處理器,而兩年前這一比例只有19%(見圖7,由于調查對象要求標記所有他們的項目使用的處理器,所以總數(shù)超過100%)。這種趨勢尤其令人震驚,因為在幾年前,深度學習專用處理器還根本不存在。同樣需要注意的是,其他處理架構通常用于各種視覺任務。
圖7:被調查的開發(fā)者在他們的計算機視覺設計中使用的多種處理結構。(來源:EVA)
趨勢四、軟件和硬件的普及化
“普及化”意味著開發(fā)有效的計算機視覺系統(tǒng)和應用、以及大規(guī)模部署這些解決方案,正在快速變得越來越容易。為什么?主要有以下三大原因:
第一、深度學習使非專家能夠使用樣本圖像數(shù)據(jù)(與手工設計的代碼相比)更容易地創(chuàng)建功能性視覺系統(tǒng)。
第二、有了更高性能、更低成本的處理器和有效的開發(fā)工具。
第三、作為邊緣處理的輔助或替代,云計算越來越普遍。
前兩點已經(jīng)討論過,但第三點值得注意。云計算作為基于邊緣視覺處理方法的輔助(如果不是替代的話),正變得越來越普遍。
“云vs邊緣計算vs兩者混合”的拓撲決策通常并不簡單,“正確”的答案因應用和公司的不同而不同,甚至同一公司內(nèi)的不同項目之間也不同(見圖8)。
圖8:邊緣計算和云計算的性能比較。星星越多,優(yōu)勢越大。
云計算的有利因素包括:
上市時間:云計算的軟件開發(fā)通常比嵌入式平臺的軟件開發(fā)更快捷、更容易。
可升級性:在限制范圍內(nèi),用戶可以輕松升級到更高性能的處理器、更大的內(nèi)存容量、更多的硬盤存儲、更新的操作系統(tǒng)和中間件版本等。當然用戶也不能在云中升級所有東西,例如不能升級圖像傳感器。
準確性:用戶可以在云中獲得巨大的計算能力,因此可以運行更大的神經(jīng)網(wǎng)絡,也就是運行更復雜的算法,包括能夠根據(jù)需要利用突發(fā)的額外處理能力。
分布式設備之間的協(xié)作:例如,如果你正在跟蹤城市中行駛的車輛,那么就有必要在一個地理區(qū)域內(nèi)收集信息。雖然云并不是實現(xiàn)這一點的唯一途徑,但它能很方便地將來自許多分散邊緣節(jié)點的信息結合起來。
設備成本:更低的物料清單成本、更小的電池等。當然以邊緣為中心的方法有其自身優(yōu)勢。
無需經(jīng)常性成本:不必為每次使用云計算處理、內(nèi)存和存儲資源支付費用。
網(wǎng)絡連接性:通常根本不需要,或是不會經(jīng)常需要。
帶寬和延遲:當需要網(wǎng)絡連接時,帶寬和延遲要求會降低,因為在進入云傳輸之前,很大一部分數(shù)據(jù)處理已經(jīng)在邊緣設備上完成了。
隱私和安全:原始數(shù)據(jù)在邊緣設備上處理,通常會立即丟棄。唯一能進入云端的信息是元數(shù)據(jù),而且通常是匿名的。
EVA最新的開發(fā)者調查結果不出所料地顯示,大多數(shù)受訪者至少在邊緣設備上做了一些神經(jīng)網(wǎng)絡推理(見圖9,由于調查對象要求標記所有他們的項目使用的處理器,所以總數(shù)超過100%)。然而,近一半的受訪者也在云中進行部分或全部推理。
圖9:多數(shù)受訪者至少在邊緣設備上做了一些神經(jīng)網(wǎng)絡推理,近一半的受訪者也在云中進行部分或全部推理。(來源:EVA)
聲明:部分內(nèi)容來源于網(wǎng)絡,僅供讀者學術交流之目的。文章版權歸原作者所有。如有不妥,請聯(lián)系刪除。
責任編輯:PSY
原文標題:推動機器視覺應用發(fā)展的四個關鍵趨勢
文章出處:【微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
-
處理器
+關注
關注
68文章
19286瀏覽量
229854 -
云計算
+關注
關注
39文章
7808瀏覽量
137412 -
機器視覺
+關注
關注
162文章
4372瀏覽量
120327 -
3D傳感
+關注
關注
2文章
123瀏覽量
14122
原文標題:推動機器視覺應用發(fā)展的四個關鍵趨勢
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論