完美世界txt下载,完结小说排行榜,大主宰天蚕土豆小说

一.導論

目前深度學習已經在2D計算機視覺領域取得了非凡的成果，比如使用一張圖像進行目標檢測，語義分割，對視頻當中的物體進行目標跟蹤等任務都有非常不錯的效果。傳統的3D計算機視覺則是基于純立體幾何來實現的，而目前我們使用深度學習在3D計算機視覺當中也可以得到一些不錯的效果，目前甚至有超越傳統依靠立體幾何識別準確率的趨勢。因此咱們現在來介紹一下深度學習在3D計算機視覺當中的應用吧！本博文參考了前幾天斯坦福大學最新出的CS231n課程（2020/8/11新出），新課增加了3D計算機視覺和視頻/動作分類的lecture，同時豐富了生成對抗網絡（GAN）的內容，但暫時國內還無人翻譯，因此小編將其翻譯整理成博文的形式供大家參考,如有錯誤之處，請大家見諒，同時歡迎大家討論。

二.3D計算機視覺訓練集以及表示方法

在3D計算機視覺當中，我們可以采用于訓練的模型共有以上幾種，分別是：

1.Depth Map（深度圖）

2.Voxel Grid(翻譯過來很奇怪，因此就保留原英語)

3.Implicit Surf ace(隱表面)

4.PointCloud（三維點云）

5.Mesh

那么什么是Depth Map（深度圖）呢？咱們來看看

三.Depth Map（深度圖）

深度圖的圖像如下所示：

在左上角有一張關于斯坦福大學寢室的圖片，我們可以將其轉化為右上角的深度圖，其中深度圖當中不同的顏色表示了不同物體距離攝像頭的距離，距離攝像頭的距離越大，則顯示出來的顏色則越紅。我們假設有一個神經網絡，我們只需要輸入一張圖片，就可以得到圖片當中的所有位置距離攝像頭的距離，這樣是不是很酷呢？那么我們如何使用神經網絡對一系列的圖片訓練成為深度圖的形式呢？一些研究人員便立馬想到可以使用全卷積神經網絡(Fully convolutional Network)來實現這個過程，全卷積神經網絡(Fully convolutional Network)是我們之前在2D計算機視覺當中所采用的用于圖像分割的神經網絡，之前圖像分割得到的是每一個像素點顯示的是屬于某一個物體類別的概率值，而現在我們把同樣的神經網絡用于深度圖當中就可以得到圖像當中某一個像素距離攝像頭的遠近大小。這樣就可以完美得到咱們的深度圖訓練模型了，我們甚至可以把這個全卷積神經網絡替換成U-net以期在一些特定數據集上得到更好的效果。模型如下所示：

這個模型首先也是輸出一個3通道的彩色圖片，經過一個全卷積神經網絡(FCN)然后對深度圖進行估計，輸出的深度圖僅僅具有兩個維度，因為第三個維度為1，意味著我們輸出的深度圖實際上是黑白的，用黑色或者白色的深度來表示距離攝像頭的距離，圖像當中使用了彩色僅僅是因為看起來更加方便。同時這里的loss使用了L2距離進行損失函數的編寫。

但是！！！！細心的同學肯定會發現其中有一定的問題，那就是同一個物體，擁有不同的大小，他們如果僅僅通過一張圖片來判定他們離攝像頭的距離是不一定準確的。因為圖片當中并沒有包含物體有關深度的信息。

比如我們有兩只形狀完全相同的鳥，但是其中一只鳥是另一只鳥大小的2倍，我們把小鳥放到離攝像頭更近的位置，將大鳥放到離攝像頭更遠的位置，那么僅僅通過一張圖片我們就會認為這兩只鳥離我們的攝像頭距離是一樣大的！如下圖所示：

那么這樣我們又該如何解決呢？聰明的研究人員設計了一個具有尺寸不變特征的的loss function來解決了這個問題，這個loss function的寫法如下：

至于這個公式為什么會讓圖片的深度信息得以保留，這里不再贅述，感興趣的同學可以翻看一下提出這個loss的論文，在2016年的世界頂級人工智能會議論文NIPS上發表，于紐約大學（New York University）提出，論文的鏈接如下：https://papers.nips.cc/paper/5539-depth-map-prediction-from-a-single-image-using-a-multi-scale-deep-network.pdf

同時呢，在深度圖當中還有一種圖叫做垂直表面法向量圖，它的圖像如下所示：

最后輸出圖像當中的不同顏色代表了這個物體的表面所朝空間當中的方向，比如綠色代表這個物體的表面是朝向右邊的，而紅色則代表這個物體的表面是朝向左邊的。我們也可以使用全卷積神經網絡(Fully convolutional Network)對這種輸出的圖像進行處理，其中的結構如下所示：

最后的Loss采用了(x*y)/(|x|*|y||)的方法，因為我們所預測的圖像具備圖像的方向和深度的信息，而圖像的方向和大小正好可以由向量表示，豈不美哉？每一個訓練集當中的圖片的其中一個像素點都可以由一個向量來表示，同時具備深度（長度）和方向的信息。而原圖當中某個像素點的大小可以表示為向量x，通過神經網絡推測之后的同一個像素點則可以表示為向量y,因此我們可以使用公式(x*y)/(|x|*|y||)來衡量這兩個向量之間的差距，其中(x*y)中的乘法使用了點乘，因此上下相除可得cos(theta)也就是圖片當中某個像素點所具備的loss的大小，將整個圖片當中所有像素點的大小加起來則可以得到整個圖像當中loss的大小了。

四.Voxel Grid網格表示法

如上圖所示，我們可以將一張二維的圖片轉為一張三維的Voxel grid圖，什么是Voxel grid圖呢？Voxel grid圖就是在一個三維的，大小為V*V*V的空間立體當中，由一系列1*1*1正方體網格堆砌出來的三維立體圖形，Voxel grid圖當中的每一個網格只具有兩個值，1或者0，1表示這個地方有正方體，0表示這個地方沒有正方體。一個Mesh圖當中只保留物體的形狀和大小信息，而不保留物體的顏色以及紋理的信息。

我們先來看一個有趣的問題，用什么方法可以對三維Voxel grid圖進行分類呢？我們暫時不考慮將二維圖像恢復到三維Voxel grid圖的情況的話，常見的手段是使用立體3D卷積，如下圖所示：

3D立體卷積和我們的2D卷積有一點不同之處，那就是卷積核的神奇之處是它竟然是一個正立方體！而不是一個二維的平面！在上圖當中，我們的輸入是一個四通道的1*30*30*30的Voxel grid圖，輸入的圖像可能是一個椅子，也可能是一個床。我們通過三維卷積，不斷地進行卷積以及池化的操作，接著使用全連接神經網絡將其展開，最后使用softmax函數將其繼續擰分類。我們使用3D卷積能夠對立體圖像的特征進行更為有效的檢測，因為一個立體的圖像不僅僅有長和寬上面的信息，還有其有關深度的相關信息，因此需要采用3D卷積。3D卷積的動態圖如下所示，這個例題動態圖當中卷積核的大小為3*3*3：

再回到我們剛才的問題，如何將一個二維的圖像轉化為Voxel grid圖呢，我們可以采用的卷積神經網絡如下所示：

首先我們將二維的圖像首先送入到一個2D卷積神經網絡當中，用于提取這個二維圖像的特征，然后通過全連接神經網絡或者Flatten層將其展平一個一維的向量，這樣就可以更加方便地轉化reshape為四通道進行三維卷積的形式，前面我們已經說過三維卷積能夠更好地抽象地還原和提取到圖像在三維空間上的個特征，因此我們對剛才二維圖像抽象出來的特征通過三維卷積進行還原，這是一個通過三維卷積進行上采樣的過程。最后輸出的結果就可以得到我們的Voxels grid圖啦！

但是使用三維卷積常常就會用更為昂貴的代價來換取更為準確的結果，因為三維卷積使用的參數過多，如下圖所示：

我們僅僅儲存1024^3個Voxels grid網格就需要電腦 4GB的顯存，實在是太大了！好多電腦的顯存還沒有這么大呢！因此有些研究人員則直接使用二維卷積對圖像進行三維的還原，當然效果肯定沒這么好啦，如下圖所示：

這個思想就很和我們的自編碼器（Auto-Encoders）很像了。

五.采用隱函數

我們還可以采用物體在三維空間當中的函數圖像來表示一個立體物體，我們再用神經網絡來重新擬合出這個函數就好啦，個人覺得在這種方法不太合理，如下所示：

六.采用3D點云

采用3D點云應該是目前比較靠譜的方案，

在3D點云當中每一個點，都有三個參數，分別是每個點在x,y,z軸上的位置，對3D點云進行分類的話和對Mesh分類的方法差不多，也是經過一定的神經網絡再經過softmax函數就可以得到最后的分類了！如下圖所示：

這就是今天小編給大家分享的全部內容啦！

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

計算機視覺

計算機視覺

+關注

關注
8

文章
1698

瀏覽量
46031
3D視覺

3D視覺

+關注

關注
4

文章
434

瀏覽量
27549
深度學習

深度學習

+關注

關注
73

文章
5507

瀏覽量
121272

原文標題：一文入門當今最火的3D視覺

文章出處：【微信號：vision263com，微信公眾號：新機器視覺】歡迎添加關注！文章轉載請注明出處。

【小白入門必看】一文讀懂深度學習計算機視覺技術及學習路線

一、什么是計算機視覺？計算機視覺，其實就是教機器怎么像我們人一樣，用攝像頭看看周圍的世界，然后理解它。比如說，它能認出這是個蘋果，或者那邊有輛車。除此之外，還能把拍到的照片或者視頻轉換

發表于 10-31 17:00 ?436次閱讀

【小白入門必看】一文讀懂<b class='flag-5'>深度</b><b class='flag-5'>學習</b><b class='flag-5'>計算機</b><b class='flag-5'>視覺</b>技術及<b class='flag-5'>學習</b>路線

計算機視覺有哪些優缺點

計算機視覺作為人工智能領域的一個重要分支，旨在使計算機能夠像人類一樣理解和解釋圖像和視頻中的信息。這一技術的發展不僅推動了多個行業的變革，也帶來了諸多優勢，但同時也伴隨著一些挑戰和局限性。以下是對

發表于 08-14 09:49 ?1015次閱讀

機器視覺和計算機視覺有什么區別

機器視覺和計算機視覺是兩個密切相關但又有所區別的概念。一、定義機器視覺機器視覺，又稱為計算機

發表于 07-16 10:23 ?557次閱讀

計算機視覺的五大技術

計算機視覺作為深度學習領域最熱門的研究方向之一，其技術涵蓋了多個方面，為人工智能的發展開拓了廣闊的道路。以下是對計算機

發表于 07-10 18:26 ?1423次閱讀

計算機視覺的工作原理和應用

計算機視覺（Computer Vision，簡稱CV）是一門跨學科的研究領域，它利用計算機和數學算法來模擬人類視覺系統對圖像和視頻進行識別、理解、分析和處理。其核心目標在于使

發表于 07-10 18:24 ?2076次閱讀

計算機視覺與人工智能的關系是什么

引言 計算機視覺是一門研究如何使計算機能夠理解和解釋視覺信息的學科。它涉及到圖像處理、模式識別、機器學習等多個領域的知識。人工智能則是研究如

發表于 07-09 09:25 ?684次閱讀

計算機視覺與智能感知是干嘛的

引言 計算機視覺（Computer Vision）是一門研究如何使計算機能夠理解和解釋視覺信息的學科。它涉及到圖像處理、模式識別、機器學習等

發表于 07-09 09:23 ?969次閱讀

計算機視覺和機器視覺區別在哪

計算機視覺和機器視覺是兩個密切相關但又有明顯區別的領域。一、定義 計算機視覺 計算機

發表于 07-09 09:22 ?467次閱讀

計算機視覺在人工智能領域有哪些主要應用?

與分類是計算機視覺的基礎應用之一。通過訓練機器學習模型，計算機可以識別和分類各種圖像，如動物、植物、物體等。這種技術在許多領域都有應用，如搜

發表于 07-09 09:14 ?1461次閱讀

計算機視覺屬于人工智能嗎

屬于，計算機視覺是人工智能領域的一個重要分支。引言 計算機視覺是一門研究如何使計算機具有視覺能

發表于 07-09 09:11 ?1343次閱讀

深度學習在計算機視覺領域的應用

隨著人工智能技術的飛速發展，深度學習作為其中的核心技術之一，已經在計算機視覺領域取得了顯著的成果。計算機

發表于 07-01 11:38 ?844次閱讀

OpenCV攜奧比中光3D相機亮相CVPR 2024

6月17日-21日，奧比中光合作伙伴OpenCV攜Orbbec 3D相機參展在美國西雅圖舉辦的CVPR 2024（即IEEE國際計算機視覺與模式識別會議），讓開發者親身體驗Orbbec

發表于 06-21 09:38 ?595次閱讀

機器視覺與計算機視覺的區別

在人工智能和自動化技術的快速發展中，機器視覺（Machine Vision, MV）和計算機視覺（Computer Vision, CV）作為兩個重要的分支領域，都扮演著至關重要的角色

發表于 06-06 17:24 ?1362次閱讀

計算機視覺的主要研究方向

計算機視覺（Computer Vision, CV）作為人工智能領域的一個重要分支，致力于使計算機能夠像人眼一樣理解和解釋圖像和視頻中的信息。隨著深度

發表于 06-06 17:17 ?1003次閱讀

計算機視覺的十大算法

隨著科技的不斷發展，計算機視覺領域也取得了長足的進步。本文將介紹計算機視覺領域的十大算法，包括它們的基本原理、應用場景和優缺點。這些算法在圖

發表于 02-19 13:26 ?1263次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

深度學習在3D計算機視覺當中的應用

評論

【小白入門必看】一文讀懂深度學習計算機視覺技術及學習路線

計算機視覺有哪些優缺點

機器視覺和計算機視覺有什么區別

計算機視覺的五大技術

計算機視覺的工作原理和應用

計算機視覺與人工智能的關系是什么

計算機視覺與智能感知是干嘛的

計算機視覺和機器視覺區別在哪

計算機視覺在人工智能領域有哪些主要應用?

計算機視覺屬于人工智能嗎

深度學習在計算機視覺領域的應用

OpenCV攜奧比中光3D相機亮相CVPR 2024

機器視覺與計算機視覺的區別

計算機視覺的主要研究方向

計算機視覺的十大算法