細粒度圖像分析技術詳解
“有別于我們熟悉的圖像識別,“細粒度圖像分析”所屬類別和粒度更為精細,本文將向讀者全面介紹這一領域的相關技術。 ”
有別于通用圖像分析任務,細粒度圖像分析的所屬類別和粒度更為精細,它不僅能在更細分的類別下對物體進行識別,就連相似度極高的同一物種也能區別開來。本文將分別圍繞“細粒度圖像分類”和“細粒度圖像檢索”兩大經典圖像問題來展開,從而使讀者對細粒度圖像分析領域有全面的理解。
大家應該都會有這樣的經歷:逛街時看到路人的萌犬可愛至極,可僅知是“犬”殊不知其具體品種;初春踏青,見那姹紫嫣紅叢中笑,卻桃杏李傻傻分不清……實際上,類似的問題在實際生活中屢見不鮮。如此問題為何難?究其原因,是普通人未受過針對此類任務的專門訓練。倘若踏青時有位資深植物學家相隨,不要說桃杏李花,就連差別甚微的青青河邊草想必都能分得清白。為了讓普通人也能輕松達到“專家水平”,人工智能的研究者們希望借助計算機視覺技術(Computer Vision,CV)來解決這一問題。如上所述的這類任務在CV研究中有個專門的研究方向,即“細粒度圖像分析”(Fine-Grained Image Analysis)。
細粒度圖像分析任務相對通用圖像(General/Generic Images)任務的區別和難點在于其圖像所屬類別的粒度更為精細。以圖1為例,通用圖像分類其任務訴求是將“袋鼠”和“狗”這兩個物體大類(藍色框和紅色框中物體)分開,可見無論從樣貌、形態等方面,二者還是很容易被區分的;而細粒度圖像的分類任務則要求對“狗”該類類別下細粒度的子類,即分別為“哈士奇”和“愛斯基摩犬”的圖像分辨開來。正因同類別物種的不同子類往往僅在耳朵形狀、毛色等細微處存在差異,可謂“差之毫厘,謬以千里”。不止對計算機,對普通人來說,細粒度圖像任務的難度和挑戰無疑也更為巨大。
圖1 通用圖像分析
在此,本文針對近年來深度學習方面的細粒度圖像分析任務,分別從“細粒度圖像分類”(Fine-Grained Image Classification)和“細粒度圖像檢索”(Fine-Grained Image Retrieval)兩大經典圖像問題進行進展綜述,以期讀者可以對細粒度圖像分析領域提綱挈領地窺得全貌。
細粒度圖像分類
誠如剛才提到,細粒度物體的差異僅體現在細微之處。如何有效地對前景對象進行檢測,并從中發現重要的局部區域信息,成為了細粒度圖像分類算法要解決的關鍵問題。對細粒度分類模型,可以按照其使用的監督信息的強弱,分為“基于強監督信息的分類模型”和“基于弱監督信息的分類模型”兩大類。
基于強監督信息的細粒度圖像分類模型
所謂“強監督細粒度圖像分類模型”是指:在模型訓練時,為了獲得更好的分類精度,除了圖像的類別標簽外,還使用了物體標注框(Object Bounding Box)和部位標注點(Part Annotation)等額外的人工標注信息,如圖2所示。
圖2 物體標注框和部位標注點
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%