場景圖( scenegraphs , SGs )在計算機視覺和計算機圖形學中都是一種可解釋的、結構化的場景表示。場景圖總結了場景中的實體以及它們之間的合理關系。 SGs 在計算機視覺、機器人、自主車輛等領域有著廣泛的應用。
當前的 SG 生成技術依賴于昂貴的標記數據集的有限可用性。合成數據是解決這個問題的一個可行的選擇,因為注釋基本上是免費的。盡管合成數據已被用于圖像分類、目標檢測和語義分割等多種任務,但合成數據用于 SG 生成和視覺關系仍有待探索。由于合成數據和真實數據在外觀和內容上的差異,在有標記的合成數據上訓練神經網絡模型,在無標記的真實數據上進行評價,這就導致了領域差距問題。
圖 1 場景圖顯示場景中的各種對象,如車輛、植被、房屋以及它們之間的關系。
Sim2SG 框架
為了克服這些挑戰,我們提出了 Sim2SG ,一種可擴展的 sim-To-real 場景圖生成技術。本研究的主要目的是通過在含有標記 SG 信息的模擬數據集上訓練神經網絡,然后將學習到的模型轉換到真實數據集上,從真實世界的圖像中生成場景圖。
在訓練過程中, Sim2SG 處理域間隙并學習生成場景圖。域間隙可細分為以下間隙:
外觀間隙 是兩個域的外觀差異,例如場景中對象的紋理、顏色、光照或反射率的差異。
內容差距 是指兩個域之間的差異,包括對象數量分布的差異及其類別、位置、姿勢和比例。
我們進一步分析了內容差距,并解決了其子組成部分 – 標簽和預測差異。圖 1 顯示了 Sim2SG 為真實世界的駕駛數據集生成精確的場景圖,圖 2 顯示了整個管道。
圖 2 Sim2SG 管道工作流。
在圖 2 中, Sim2SG 管道將來自源域的帶標記的合成數據和來自目標域的未標記的真實數據作為輸入。使用編碼器將標記的合成數據和未標記的真實數據映射到共享表示 Z 。然后,我們使用合成數據在 Z 上訓練場景圖預測網絡 h 。我們使用基于偽統計的自學習方法來處理標簽差異,生成標簽對齊的合成數據以供訓練。我們進一步利用梯度反轉層( GRL )和域鑒別器的對抗性技術來調整兩個域之間的預測差異和外觀差異。
定量評價
我們使用了四種類型:汽車、行人、植被和房屋,以及四種類型的關系:前、左、右和后。所有的關系都以汽車為主題。
表 1 在人工駕駛環境下訓練時對 KITTI hard 的評估。類特定的 AP 和 mAP 報告為 0 。 5iou 。
表 1 顯示了與基線相比,標簽對齊和外觀對齊在所提出的方法中如何顯著地減少域間隙。我們將 Sim2SG 與基于隨機化的方法( Prakash et al 。, 2019 )、解決內容差距的方法( Kar et al 。, 2019 )、基于偽標簽的自學習方法( Zou et al 。, 2018 )和用于目標檢測的域自適應方法( Chen et al 。, 2018 ; Xu et al 。, 2020 ; Li et al 。, 2020 )進行了比較。通過結合標簽、外觀和預測對齊(最后一行),域間隙進一步減小。
定性評價
圖 3 Sim2SG 在目標域上的定性結果。
圖 3 顯示了 Sim2SG 在目標域上的定性結果。第一列顯示僅源基線無法檢測到對象或具有大量誤報(錯誤標記),從而導致場景圖不佳。我們的方法能夠更好地檢測對象,具有更少的誤報,并最終生成更精確的場景圖,分別如第二列和第三列所示。這是因為外觀對齊項減少了假陽性檢測。此外,標簽對齊項還提高了檢測性能,因為它有助于生成用于訓練的合成數據,這些數據與目標域的標簽對齊程度更高。圖 4 顯示了一些與目標域樣本相對應的標簽對齊的合成重建。
圖4 基于標簽對齊的駕駛環境中目標 KITTI 樣本的綜合重建。基蒂樣品(右)和相應的合成樣品(左)。
概括
在這項工作中,我們提出了 Sim2SG ,一個模型,實現了 sim-to-real 轉移學習場景圖生成上未標記的真實世界數據集。我們將域間隙分解為合成域和真實域之間的標記、預測和外觀差異。我們提出了解決這些差異的方法,并在所有三種環境( Clevr 、 dinning-Sim 和 Drive-Sim )中實現了基線的顯著改進。
關于作者
Aayush Prakash 是多倫多人工智能實驗室的高級研究員。他的研究興趣在于機器學習、計算機視覺和計算機圖形學的結合點。具體來說,他致力于模擬現實問題的感知。他想通過模擬訓練有效的真實世界模型。在 NVIDIA 之前,他是多倫多 IBM 實驗室的一員,在那里從事編譯器的工作,這是他過去一直感興趣的另一個領域。他于 2010 年畢業于印度哈拉格布爾印度理工學院( IIT ),獲得電子 CTR 和電子 CTR 通信工程學士學位, 2013 年畢業于加拿大滑鐵盧大學計算機工程碩士學位。
Shoubhik Debnath 是 NVIDIA 的研發工程師,致力于機器人技術、仿真和深度學習。他于 2014 年畢業于印度曼迪印度理工學院( IIT )計算機科學與工程理學學士學位,并于 2018 年在南加州大學 Gaurav Suhkatme 教授的指導下獲得計算機科學碩士學位,專注于機器人研究。此前, Shoubhik 還在微軟工作了兩年,專注于數據科學和基于云的技術。
Jean-Francois Lafleche 是一位充滿干勁和激情的工程師,熱愛用創新的解決方案解決復雜的挑戰。他是一個自學成才的終身學習者,擁有廣泛多樣的技能,專注于機器學習和機器人應用。
Eric Cameracci 是滑鐵盧大學計算機工程專業的 2015 屆畢業生。
Gavriel State 是 NVIDIA 系統軟件團隊的高級主管。他在多倫多工作,除了為 NVIDIA SHIELD TV 平臺重新制作游戲外,還負責將 AI 技術應用于游戲,反之亦然。此前, Gavriel 成立了 TransGaming , Inc ,并花了 15 年時間專注于游戲和渲染技術。
Marc T. Law 是 NVIDIA 的高級研究科學家,致力于機器學習和計算機視覺。他在加拿大多倫多人工智能實驗室工作,由 Sanja Fidler 教授領導。 2015 年,他獲得法國巴黎皮埃爾瑪麗居里大學(現為索邦大學)計算機科學博士學位。他的博士生導師是馬蒂厄·科德教授和斯蒂芬·甘薩爾斯基教授,他還受到尼古拉斯·托馬斯教授的指導。 Marc 曾于 2015 ~ 2016 年在卡內基梅隆大學計算機學院任 Eric Xing 教授團隊訪問研究學者。 2016 年至 2019 年,他在多倫多大學和向量研究所計算機科學系(機器學習組)擔任博士后研究員,由 Raquel Urtasun 教授和 Richard Zemel 教授指導。
審核編輯:郭婷
-
NVIDIA
+關注
關注
14文章
5026瀏覽量
103293 -
計算機
+關注
關注
19文章
7520瀏覽量
88267 -
機器學習
+關注
關注
66文章
8428瀏覽量
132811
發布評論請先 登錄
相關推薦
評論