從事過計算機視覺任務的小伙伴對于數據一定有著難以言說的情感。數據集的大小和質量直接影響著算法的精度和性能。而且冗長的、海量的圖像標注工作也讓很多中小團隊對于視覺任務的訓練打起了退堂鼓。此外對于物體的位子,表面法向量以及深度等信息,對于人工來說幾乎是無法很容易地進行標注。
為了解決這一問題,來自Greppy研究人員提出了一個名為Metaverse的工具來幫助人們快速生成逼真的訓練數據。它可以基于CAD模型和渲染、方便的創建出逼真豐富的數據,同時生成RGB、深度圖、法向量圖、位姿標注、對象及其每一部分的掩膜。
合成數據的想法由來已久,在github上有很多類似的項目來生成各種各樣的數據,從基于統計的方法到GAN應有盡有,但這些方法都存在各種不用的問題。
有的算法需要使用者具有一定的編程能力,而有的算法生成的結果卻又不是那么逼真。我們真正需要的是一個能夠方便高效地生成大規模訓練數據來訓練網絡完成對新物體的計算機視覺任務。同時還需要在沒有光線追蹤的情況下實現對于目標圖像逼真的生成,這也是需要克服的一大挑戰。
為了解決這些問題,研究人員開發了這一基于網頁端的工具,只需要將目標物體的3D模型上傳到對應的界面應用不同的材料來對它進行更加逼真的表現,隨后進行表面材料選取和光照渲染即可。
我們以咖啡機作為例子來看看如何使用這一工具的。如果我們想要訓練計算來識別咖啡機,我們就需要上傳下圖所示的兩個咖啡壺的CAD模型,這是由于咖啡機可能是打開也可能是關閉的。
下一步我們只需要為咖啡機的每個表面設置預先設計的表面材料,點點鼠標就可以完成材料的配置。為了滿足需求,研究人員還提供了很多不同逼真材料的庫供用戶使用。同時也可以根據需要設計自己的材料。
這一軟件也為用戶提供好了方便標注物體每一部分的工具,我們可以對感興趣的部分進行點選。你不需要會用3D建模軟件,也不需要編程即可完成。
最后一步也是最有意思的一步,就是選擇你需要采集圖像的“相機”了。這一工具需要根據相機的分辨率、參數、視野以及雙目立體參數來渲染出更加精確的圖像。目前網站剛剛到達beta版本只包含了兩個相機模型:Zed mini和Intel D435,但是用戶可以自己創建個性化的相機模型來生成圖像。
然后剩下的就是交給電腦的工作了。工具可以自動地生成成千上萬的場景,包括了不同的位姿、數量、相機角度和光照條件下的目標。所有生成的結果都進行了像素級的自動標注。后臺通過GPU云服務進行一段時間的渲染,然后就可以得到自己的的數據集了。
利用這些數據,就可以進行深度學習任務啦,無論是檢測、分割都可以有豐富的數據來上手。
這一工具對于想要訓練針對性的物體、零件或者自己設計的工件等具有很大的作用,在擁有設計的CAD模型后就可以方便的生成海量數據來實現自己的demo。
-
計算機視覺
+關注
關注
8文章
1698瀏覽量
45993 -
數據集
+關注
關注
4文章
1208瀏覽量
24701
原文標題:為計算機視覺生成大規模合成、標注仿真數據的新方法
文章出處:【微信號:thejiangmen,微信公眾號:將門創投】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論