TensorFlow重磅推出一個全新的圖形工具TensorFlow Graphics,結合計算機圖形學和計算機視覺技術,以無監督的方式解決復雜3D視覺任務。
近年來,可插入到神經網絡架構中的一種新型可微圖形層(differentiable graphics layers)開始興起。
從空間變換器(spatial transformers)到可微圖形渲染器,這些新型的神經網絡層利用計算機視覺、圖形學研究獲得的知識來構建新的、更高效的網絡架構。它們將幾何先驗和約束顯式地建模到神經網絡中,為能夠以自監督的方式進行穩健、高效訓練的神經網絡架構打開了大門。
從高級層面來說,計算機圖形學的pipeline需要3D物體及其在場景中的絕對位置、構成它們的材質的描述、光、以及攝像頭。然后,渲染器對這個場景描述進行解釋,生成一個合成渲染。
相比之下,計算機視覺系統是從圖像開始的,并試圖推斷出場景的相關參數。也就是說,計算機視覺系統可以預測場景中有哪些物體,它們由什么材料構成,以及它們的3D位置和方向。
訓練一個能夠解決這些復雜的3D視覺任務的機器學習系統通常需要大量的數據。由于給數據打標簽是一個成本高昂而且復雜的過程,因此設計能夠理解三維世界、而且無需太多監督的機器學習模型的機制非常重要。
將計算機視覺和計算機圖形學技術結合起來,我們得以利用大量現成的無標記數據。
如下圖所示,這個過程可以通過合成分析來實現,其中視覺系統提取場景參數,圖形系統根據這些參數返回圖像。如果渲染結果與原始圖像匹配,則說明視覺系統已經準確地提取出場景參數了。
在這種設置中,計算機視覺和計算機圖形學相輔相成,形成了一個類似于自動編碼器的機器學習系統,能夠以一種自監督的方式進行訓練。
可微圖形層
接下來,我們將探討TensorFlow Graphics的一些功能。更多信息可以訪問GitHub:
變換(Transformations)
物體變換(Object transformations)功能能夠控制物體在空間中的位置。
如下圖所示,利用軸角度可以將立方體旋轉起來。旋轉軸指向上方,角度為正,則使立方體逆時針旋轉。
在下面的Colab示例中,我們展示了如何在一個神經網絡中訓練旋轉形式,該神經網絡被訓練來預測物體的旋轉和平移。
https://colab.sandbox.google.com/github/tensorflow/graphics/blob/master/tensorflow_graphics/notebooks/6dof_alignment.ipynb
這項任務是許多應用程序的核心,比如專注于與環境交互的機器人。機器人要用機械臂抓取物體,需要精確地估計物體相對于機械臂的位置。
建模相機(Modelling cameras)
相機模型(Camera models)在計算機視覺中有著至關重要的作用,因為相機會極大地影響投影到圖像平面上的3D物體的外觀。
如下圖所示,立方體看起來是上下縮放的,而實際上發生這種變化只是由于相機焦距發生了變化。
下面的Colab示例提供了更多關于相機模型的細節,以及如何在TensorFlow中使用它們的具體示例。
材料
材料模型(Material models)定義了光和物體交互的方式,賦予它們獨特的外觀。
例如,有些材料,如石膏,能均勻地向所有方向反射光線,而有些材料,如鏡子,則純粹是鏡面反射。
準確地預測材料屬性是許多視覺任務的基礎。例如,可以讓用戶將虛擬家具放置在環境中,家具的照片可以與室內環境逼真地融合在一起,從而讓用戶對這些家具的外觀形成準確的感知。
在下面的Colab筆記本,可以學習如何使用Tensorflow Graphics生成如下的渲染。你也可以試驗不同的材料和光的參數,了解它們如何相互作用。
幾何——3D卷積和池化
近年來,從智能手機的深度傳感器到自動駕駛汽車激光雷達,以點云或網格的形式輸出3D數據的傳感器越來越常用。由于這類數據有著不規則的結構,與提供規則網格結構的圖像相比,在這些表示上執行卷積更難實現。
TensorFlow Graphics提供兩個3D卷積層和一個3D池化層,例如,允許網絡在網格上執行語義部分分類(如下圖所示):
TensorBoard 3d
可視化debug是評估實驗是否朝著正確方向進行的一種很好的方法。為此,TensorFlow Graphics提供了一個TensorBoard插件,可以交互式地對3D網格和點云進行可視化。
-
谷歌
+關注
關注
27文章
6176瀏覽量
105678 -
深度學習
+關注
關注
73文章
5510瀏覽量
121338
原文標題:谷歌重磅推出TensorFlow Graphics:為3D圖像任務打造的深度學習利器
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論