用圖神經網絡(GNN)做CV的研究有不少,但通常是圍繞點云數據做文章,少有直接處理圖像數據的。其實與CNN把一張圖片看成一個網格、Transformer把圖片拉直成一個序列相比,圖方法更適合學習不規則和復雜物體的特征。
近期中科院與華為諾亞方舟實驗室等提出一種全新的骨干網絡,把圖片表示成圖結構數據,讓GNN也能完成經典CV三大任務。
該論文引起GNN學者廣泛關注。有人認為GNN領域積累多年的技巧都將涌入這一新方向,帶來一波研究熱潮。
在研究團隊看來,圖結構是一種更通用的數據結構。甚至網格和序列可以當作圖結構的特例,用圖結構來做視覺感知會更加靈活。圖數據由節點和邊組成,如果把每個像素都看作節點計算難度過于大了,因此研究團隊采用了切塊(patch)方法。
對于224x224分辨率的圖像,每16x16像素為一個Patch,也就是圖數據中的一個節點,總共有196個節點。對每個節點搜索他們距離最近的節點構成邊,邊的數量隨網絡深度而增加。接下來,網絡架構分為兩部分:一個圖卷積網絡(GCN),負責處理圖數據、聚合相鄰節點中的特征。一個前饋神經網絡(FFN),結構比較簡單是兩個全連接層的MLP,負責特征的轉換。
傳統GCN會出現過度平滑現象,為解決這個問題,團隊在圖卷積層前后各增加一個線性層,圖卷積層后再增加一個激活函數。
實驗表明,用上新方法,當層數較多時ViG學習到的特征會比傳統ResGCN更為多樣。
為了更準確評估ViG的性能,研究團隊設計了ViT常用的同質結構(isotropic)和CNN常用的金字塔結構(Pyramid)兩種ViG網絡,來分別做對比實驗。同質架構ViG分為下面三種規格。
與常見的同質結構CNN、ViT與MLP網絡相比,ViG在同等算力成本下ImageNet圖像分類的表現更好。金字塔結構的ViG網絡具體設置如下。
同等算力成本下,ViG也與最先進的CNN、ViT和MLP相比,性能也能超越或表現相當。
在目標檢測和實例分割測試上,ViG表現也與同等規模的Swin Transformer相當。
最后,研究團隊希望這項工作能作為GNN在通用視覺任務上的基礎架構,Pytorch版本和Mindspore版本代碼都會分別開源。
-
神經網絡
+關注
關注
42文章
4772瀏覽量
100824 -
cnn
+關注
關注
3文章
352瀏覽量
22234 -
圖卷積網絡
+關注
關注
0文章
8瀏覽量
1506
原文標題:?圖神經網絡(GNN)直接處理圖像數據
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論