計算機視覺是一個研究領域,旨在助力計算機使用復雜算法(可以是傳統算法,也可以是基于深度學習的算法)來理解數字圖像和視頻并提取有用的信息。
什么是計算機視覺?
計算機視覺的主要目標是,先理解視頻和靜止圖像的內容,然后從中收集有用的信息,以便解決越來越多的問題。作為人工智能 (AI) 和深度學習的子領域,計算機視覺可訓練卷積神經網絡(CNN),以便針對各種應用場合開發仿人類視覺功能。計算機視覺包括對 CNN 進行特定訓練,以便利用圖像和視頻進行數據分割、分類和檢測。
卷積神經網絡 (CNN) 能夠針對多種應用場合執行分割、分類和檢測:
分割:圖像分割是指將像素歸類為特定類別,如汽車、道路或行人。它廣泛用于自動駕駛汽車應用(包括 NVIDIA DRIVE 軟件堆棧),用于顯示道路、汽車和人員。您可以將其想象成一種可視化技術,該技術能夠使人們更容易理解計算機的工作。
分類:圖像分類用于確定圖像中的內容。例如,神經網絡經過訓練后能夠識別狗或貓,或者許多其他東西,并且具有高精確度。
檢測:通過圖像檢測,計算機可以定位對象的位置。在許多應用中,CNN 會在相關區域周圍設置矩形邊界框,將對象完全包含在內。檢測器也可以接受訓練,以便檢測圖像中汽車或人員的位置。
分割、分類和檢測
分割 | 分類 | 檢測 |
非常適合用于描述對象 | 是貓還是狗? | 它存在于空間中的什么位置? |
在自動駕駛汽車中使用 | 精確分類 | 識別關乎安全的事物 |
計算機視覺為何重要?
在體育、汽車、農業、零售、銀行、施工和保險等行業,計算機視覺應用非常廣泛。得益于目前機器用于識別物體的圖像處理器 – 卷積神經網絡 (CNN) ,各種由 AI 驅動的機器紛紛開始采用仿人眼技術來獲得更多助力。CNN 已成為當今自動駕駛汽車、石油勘探和聚變能源研究領域的“眼睛”。它們還有助于在醫學成像領域快速發現疾病并挽救生命。
數十年來,傳統的計算機視覺和圖像處理技術已經應用于眾多應用和研究工作。然而,現代 AI 技術采用人工神經網絡,能夠實現更高的性能準確性;高性能計算依托 GPU 取得長足進步,實現超人的準確性,從而在運輸、零售、制造、醫療健康和金融服務等行業廣泛應用。
在將圖像和視頻分類為精細離散的類別和分類方面,如同醫學計算機軸向斷層掃描或 CAT 掃描中隨時間推移而產生的微小變化,傳統或基于 AI 的計算機視覺系統遠勝于人類。在這個意義上,計算機視覺將人類有可能完成的任務自動化,但其準確性和速度要高得多。
當前和潛在的應用多種多樣,因此計算機視覺技術和解決方案的增長預測相當驚人,這點不足為奇。一項市場調研表明,到 2023 年,該市場將以驚人的 47% 的年增長率增長,屆時將在全球達到 250 億美元。在整個計算機科學范疇內,計算機視覺是熱門、活躍的研發領域之一。
計算機視覺的工作原理是什么?
計算機視覺分析圖像,然后使用卷積神經網絡 (CNN)創建其 “所見” 的數值表示。CNN 是一類人工神經網絡,使用卷積層從輸入中篩選出有用信息。卷積運算需要綜合使用輸入數據(特征圖)與卷積內核(濾波器),以便生成轉換后的特征圖。卷積層濾波器可根據學習參數進行修改,以便為特定任務提取最有用的信息。卷積網絡可根據任務自動調整,尋找最重要的特征。在執行一般的物體識別任務時,CNN 會過濾物體的形狀信息;但在進行識別鳥的任務時,CNN 則會提取鳥的顏色信息。這是由于 CNN 認為,不同類的物體會具有不同的形狀,而對于不同類型的鳥而言,其顏色可能要比形狀的差異性更大。
計算機視覺的行業用例
計算機視覺用例包括圖像識別、圖像分類、視頻標記和虛擬助手。計算機視覺領域中更加流行和突出的用例包括:
醫學。
醫學圖像處理需要快速提取重要的圖像數據以便對患者進行正確診斷,包括快速檢測腫瘤和動脈硬化。雖然計算機視覺本身無法提供診斷,但它是現代醫療診斷技術中寶貴的一部分,可以更大程度地弱化醫生的想法,并且為醫生提供越來越多的原本無法看到的信息。
自動駕駛汽車。
另一個非?;钴S的計算機視覺調研領域,自動駕駛車輛可以完全由計算機視覺解決方案接管,或者其操作可以得到顯著增強。目前已有的常用應用包括汽車中的早期警報系統。
行業用途。
制造業中有很多計算機視覺解決方案的當前和潛在用途,以支持制造流程。目前的用途包括質量控制,其中計算機視覺系統會檢查部件和產品成品是否有缺陷。在農業領域,計算機視覺系統使用光學分揀去除食品中不需要的材質。
數據科學家和計算機視覺
Python 是機器學習 (ML) 領域的熱門編程語言,許多數據科學家都熟悉其易用性及其大型庫(其中大多數庫都是免費和開源的)。數據科學家在 ML 系統中使用 Python 進行數據挖掘和數據分析,因為 Python 支持各種 ML 模型和算法。鑒于 ML 和計算機視覺之間的關系,數據科學家可以利用計算機視覺應用向各類企業的擴展,從圖像和視頻存儲中提取重要信息,增強數據驅動的決策制定。
借助 GPU 加速卷積神經網絡
在架構方面,CPU 僅由幾個具有大緩存內存的核心組成,一次只可以處理幾個軟件線程。相比之下,GPU 由數百個核心組成,可以同時處理數千個線程。
由于神經網絡由大量相同的神經元構建而成,因此本質上具有高度并行性。這種并行性自然地會映射到 GPU ,能夠提供數據并行的算術架構,并且相比僅限 CPU 的訓練,計算速度大幅增加。這種類型的架構對一系列圖像數據執行類似的計算。GPU 的單指令多數據 (SIMD) 功能使其適合運行計算機視覺任務,這些任務通常涉及對整個圖像進行類似的計算。具體而言,NVIDIA GPU 可顯著加速計算機視覺操作,為其他工作釋放 CPU 。此外,在同一臺機器上可以使用多個 GPU ,創建能夠并行運行多個計算機視覺算法的架構。
NVIDIA GPU 加速的深度學習框架
GPU 加速深度學習框架為 Python 等常用編程語言提供編程接口。其還具備輕松創建和探索自定義 CNN 和 DNN 的靈活性,同時能夠實現實驗和工業部署所需的超高速度。NVIDIA CUDA-X AI 能夠加快 Caffe 、Microsoft Cognitive Toolkit (CNTK) 、TensorFlow 、Theano 和 Torch 等廣泛使用的深度學習框架以及眾多其他機器學習應用的運行速度。深度學習框架在 GPU 上的運行速度更快,并可以在單節點內的多個 GPU 間擴展。要將框架與 GPU 一起用于卷積神經網絡的訓練和推理過程,NVIDIA 分別提供 cuDNN 和 TensorRT 。cuDNN 和 TensorRT 可為卷積層、池化層、歸一化和激活層等標準例程實現高度調整。
單擊此處查看 NVCaffe 安裝步驟和使用指南。可在此處找到卷積神經網絡 C++/CUDA 快速實施。
為快速開發和部署視覺模型,NVIDIA 向視覺 AI 開發者提供 DeepStream SDK 。其中包含 TAO 工具包,可用于為計算機視覺領域創建準確高效的 AI 模型。
NVIDIA GPU 加速的端到端數據科學
建立在 CUDA 基礎上的 NVIDIA RAPIDS開源軟件庫套件使您能夠完全在 GPU 上執行端到端數據科學和分析流程,同時仍然使用 Pandas 和 Scikit-Learn API 等熟悉的界面。
原文標題:NVIDIA 大講堂 | 什么是計算機視覺?
文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
-
NVIDIA
+關注
關注
14文章
5053瀏覽量
103364 -
gpu
+關注
關注
28文章
4760瀏覽量
129135 -
計算機視覺
+關注
關注
8文章
1699瀏覽量
46051
原文標題:NVIDIA 大講堂 | 什么是計算機視覺?
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論