圖像題注旨在為輸入圖像自動生成自然語言的描述語句,可用于輔助視覺障礙者感知周圍環境和幫助人們更便捷地處理大量非結構化視覺信息等場景。當前的主流方法主要是基于深度編碼器-解碼器框架作端到端的訓練優化,但由于視覺概念和語義實體之間對應的偏差,導致在題注中對于圖像細粒度語義的識別和理解不足。本文針對此問題,提出了基于檢測特征和蒙特卡羅采樣的注意力機制和基于改進策略梯度的序列優化(Sequence Optimization)方法,并將二者融合成一個用于圖像題注的整體框架。
在我們的方法中,為了更好地提取圖像的強語義特征,首先用Faster R-CNN取代一般的卷積網絡作為編碼器;在此基礎上,基于蒙特卡羅采樣設計一個強化注意力機制(Reinforce Attention),以篩選出當前時刻值得關注的視覺概念,實現更精準的語義引導。在序列優化階段,我們利用折扣因子和詞頻-逆文檔頻率(TF-IDF)因子改進了策略梯度的評估函數,使得生成題注時具有更強語義性的單詞有更大的獎賞值,從而貢獻更多的梯度信息,更好地引導序列優化。我們主要在MS COCO數據集上進行訓練和評測,模型在當前所有權威的度量指標得分上都取得了顯著的提升。以CIDEr指標為例,和當前比較代表性的方法[5]和[7]相比,我們的模型在最終得分上分別提升了8.0%和4.1%。
圖像題注旨在為一幅輸入圖像生成相匹配的自然語言描述,其工作流程如下圖1(a)所示。
圖1(a) 模型前向計算流程
開放域的圖像題注是一項頗具挑戰的任務,因為它不但需要對圖像中的所有局部和全局實體作實現細粒度語義理解,而且還需要生成這些實體間的屬性和聯系。從學術價值上來看,圖像題注領域的研究極大地激發著關于計算機視覺(CV)和自然語言處理(NLP)兩大領域如何更好地交叉融合;而在現實應用的維度上,圖像題注的進展對于構建一個更好的AI交互系統來說至關重要,尤其是在輔助視覺障礙者更好地感知世界,以及更全面地協助人們更加便捷地組織和理解海量的非結構化視覺信息等方面,有很大的價值。
圖像題注領域的研究進展非常快,近期產生了很多標志性的工作。目前基于深度編碼器-解碼器框架(Encoder-Decoder)的視覺注意力模型(Attention Models),在圖像題注的各個標準數據集上都取得了較好的成績。視覺注意力模型主要用于提取空間顯著區域,以更好地映射到待生成詞匯。基于此衍生了大量的改進工作,最近有部分研究工作致力于將自底向上(Bottom-up)的物體檢測和屬性預測方法(Object Detection&Attribute Prediction)和注意力機制融合到一起,在評價指標得分上取得了不錯的提升。但所有的這些工作,都采用的是Word-Level的訓練和優化方法,這導致了如下兩個問題:第一個是“Exposure Bias”,是指模型在訓練中根據給定的真實(Ground-Truth)單詞去計算下一個單詞的最大似然,而在測試中卻需要根據實際的生成(Generation)來預測下一個單詞;第二個問題是模型在訓練和評估中目標的不一致(Inconsistency),因為在訓練時采用交叉熵損失函數,而在評估模型生成的題注(Generated Captions)時,卻采用的是針對NLP領域專用的一些不可微的度量方法,比如BLEU[11],ROUGE,METEOR和CIDEr等。
為了解決上述問題,最近的一些工作創新性地引入了基于強化學習的優化方法。借助策略梯度和基準函數(Baseline Function)將原先的單詞級別(Word-Level)的訓練改進成序列化(Sequence-Level)的模式,極大地彌補了原先方案的不足,提升了圖像題注的性能。然而,這些方法也存在一些局限,比如在[5]和[10]中,通過一次序列采樣生成一句完整題注,得到一個獎賞值(Reward),而后默認所有的單詞在梯度優化時共享這一個值。顯然,在多數情況下這樣是不合理的,因為不同的單詞詞性不同、語義有側重、隱含的信息量顯著差異,應該被區分為不同的語言實體(Linguistic Entity),在訓練中對應不同的視覺概念(Visual Concepts)。為了解決這些問題,我們提出了如下的融合強化注意力機制和序列優化的圖像題注方法。
在我們的方法中,首先用Faster R-CNN取代一般的卷積網絡作為編碼器,對輸入圖像抽取基于物體檢測和屬性預測的強語義特征向量(Semantic Features)。之后,我們基于蒙特卡羅采樣設計一個強化注意力機制(Reinforce Attention),以篩選出當前時刻值得關注的視覺概念,實現更精準的語義實體引導。在序列優化(Sequence Optimization)階段,我們采用策略梯度方法計算序列的近似梯度。而在計算每個采樣單詞的獎賞值時,我們利用折扣因子和詞頻-逆文檔頻率(TF-IDF)因子改進了原始的策略梯度函數,使得生成題注時具有更強語義性的單詞有更大的獎賞值,從而為訓練貢獻更多的梯度信息,以更好地引導序列優化。在實驗中,我們在MS COCO數據集上的各項性能指標得分均超過了當前的基線方法,證明了方法設計的有效性。
圖像題注方法
總體上,圖像題注的方法可以被分為兩大類:一類是基于模板的(template-based),另一類是基于神經網絡的(neural network-based)。前者主要通過一個模板來完成題注生成,而這個模板的填充需要基于對象檢測、屬性預測和場景理解的輸出。而本文中提出的方法采用的是跟后者一致的框架,所以下面我們主要介紹基于神經網絡做圖像題注的相關工作。
近些年,加載了視覺注意力機制的深度編碼器-解碼器的一系列工作,在圖像題注任務的各個標準數據集上都取得了非常不錯的結果。此類方法的核心機制在于:融合了視覺注意力機制的卷積網絡和循環網絡,能夠更好地挖掘隱含的上下文視覺信息,并在端到端地訓練充分融合局部和全局的實體信息,從而為題注生成提供更強的泛化能力。之后的很多工作從此出發:一方面是繼續強化和改善注意力機制的功效,提出了一些新的計算模塊或網絡架構;另一方面,部分工作致力于將基于檢測框架的特征提取和表征方法與注意力機制融合到一起,以獲得更好地實體捕捉能力。
但是目前基于視覺注意力的方法使用交叉熵的純單詞級別(Word-Level)訓練模式存在兩個顯著的缺陷:Exposure Bias和Inconsistency。為了更好地解決這兩個問題,基于強化學習的優化方法被引入圖像題注任務中。其中尤為代表性的工作是[10],他們將問題重新建模為一個策略梯度優化問題,并采用REINFORCE算法進行優化;為了減小方差、提升訓練穩定性,[10]提出了一個混合增量式的訓練方法。隨后[5][15]等工作基于此做了不同的改進,他們主要是提出了更好的基準函數(Baseline Function),以更大限度地、更高效地提升序列優化的效果。但是當前的這些方法存在的一個顯著的局限性是:在對序列梯度進行采樣逼近時,默認一句話中的所有單詞享有共同的獎賞值。而這顯然是不合理的。為了彌補這個缺陷,我們引入了兩種優化策略:第一,從強化學習中評估函數的計算出發,引入折扣因子,更精準地計算每一個單詞采樣回傳的梯度值;第二,是從直接度量驅動(Metric-Driven)的初衷出發,將TF-IDF因子引入了獎賞計算中,以更好地發揮強語言實體對于序列整體優化的驅動作用。
方法
我們的模型整體工作框架如圖1所示,其中(a)是一個從輸入到輸出的前向計算流程,(b)為基于強化學習的序列優化過程。下面我們將從語義特征提取,題注生成器和序列優化三個方面,依次遞進地介紹我們的方法細節。
圖1(a) 模型前向計算流程
圖1(b) 基于強化學習的序列優化過程
1、語義特征(Semantic Features)
對于輸入圖像,與常用做法不同的是,我們并非提取卷積特征向量,而是基于物體檢測和屬性預測提取圖像的語義特征向量,使得在訓練過程中可以更好地與真實題注語句中的語言實體相匹配。在本文中,我們用Faster R-CNN[33]作為圖像題注模型中的視覺編碼器。給定輸入圖片Ⅰ,需要輸出的語義特征記為:
我們對Faster R-CNN最后的輸出做一個非極大值抑制(Non-maximum Suppression),對于每一個選中的候選區域
2、題注生成器(Caption Generator)
(1)模型結構和目標函數
給定一幅圖像Ⅰ以及相應的語義特征向量
其中
其中,
和之前所有Encoder-Decoder框架一樣,這里采用交叉熵(XENT)損失函數來訓練和優化整個網絡,也就是求如下目標函數的極小值:
(2)強化注意力機制(Reinforce Attention)
下面我們介紹兩層LSTM輸入向量
在每一步計算中,第一層的輸入
其中
得到第一層的輸出
在實際計算中,我們對該分布進行蒙特卡羅采樣(MC Sampling)以得到
最后我們再次采用串聯運算
由于上述公式(6)中我們運用了不可微的蒙特卡羅采樣,因此我們需要重新定義一個和公式(4)稍有區別的新目標函數。借鑒[19][29]中的工作,我們引入原目標函數
這里我們采用REINFORCE算法[30]來近似計算的
其中
3、序列優化(Sequence-Level Optimization)
為了更直接地優化NLP度量指標,并很好地解決Exposure Bias的問題,我們將圖像題注重新建模成一個基于強化學習的序列決策問題。我們可以將上文所述的生成模型視為一個智能體(Agent),與由圖像和詞匯構成的外部環境(Environment)實時交互。我們定義狀態(state)為:
對于圖像題注任務,該目標可以公式化為求負的期望累積獎賞的最小值:
這里
其中
但正如我們在導言中提及的那樣,這種計算方式忽視了不同語言實體對于整個序列獎賞值的貢獻差異,因此我們提出如下兩個改進:(1)我們引入一個折扣因子
實驗
1、數據集(Datasets)
我們在當前圖像題注領域最通用的數據集MS COCO[31]上來評測我們提出的方法。該數據集總計有123287張圖片,每張圖片有5句人工標注的題注作為真實值(Ground Truth),其中劃分出訓練集82783張和驗證集40504張。而測試集是另外的40775張圖片,專門用作在線系統測評(Online),官方不公開與之對應的題注真實值。因此,當模型需要在本地(Offline)驗證和調試時,我們采用另外的數據集劃分標準,從123297張圖片集中劃分出分別包含5000張圖片的驗證集和測試集。對于所有題注語句數據的預處理,包括分詞和詞典生成等,我們采用目前公用的開源代碼[https://github.com/karpathy/neuraltalk],去掉不常用的詞匯,生成一個包含9487個不同單詞的詞典(即
2、實施細節(Implementation Details)
特征提取在提取語義特征時,我們采用的是一個基于ResNet-101[32]的Faster R-CNN網絡。我們設置IoU閾值為0.7用于區域候選框抑制(Suppression),0.3用于物體類別抑制。為了選取顯著性圖像區域,我們設置了一個0.2檢測的檢測置信度。在實驗中,我們發現每幅圖片最多選取到36個顯著語義區域,即
訓練部署每一層LSTM隱藏單元
3、結果分析
在本地評測中,我們主要將模型在MS COCO數據集上的結果,和如下三個比較新的代表性模型進行比較:(1)Adaptive Attention[6],標記為AdaAtt;(2)Self-Critical Sequence Training[5],標記為SCST;(3)Bottom up and Top Down Attention[7],標記為BU-Att。比較的結果如表1所示:
表1和其他代表性方法的性能對比
這里我們主要記錄了5項度量指標,包括CIDEr,METEOR(標記為MET),ROUGLE(標記為ROU),BLEU-4(標記為B-4)和BLEU-1(標記為B-1)。從中我們可以得到如下的結論:(1)我們提出的方法,在圖像題注各項評測指標上的得分,都顯著性地高于其他三種;(2)四種方法在各項指標上的得分增幅,都基本保持一致。以CIDEr得分為例,我們發現從AdaAtt到BU-Att,再到我們的方法,每一次改進都實現了約5個點的提升。這一定程度上可以說明,我們的這種改進思路,對于圖像題注任務更進一步的進展,是具有借鑒意義的。
除此之外,我們分別分析了所提出方法的不同組件(Components)對圖像題注性能提升的貢獻:(1)首先我們考察只使用Reinforce Attention組件(標記為Reinforce)的性能增益;(2)之后單獨考察我們提出的序列優化改進因子,即
表2針對模型不同組件的性能分析表
從中我們可以看出:我們改進的兩個組件,都分別在BU-Att的基礎上實現了各項評測指標得分的顯著提升,其中
圖2圖像題注結果可視化
(其中,圖片中的綠框表示Reinforce Attention的結果,語句中的綠框是生成的對應的單詞)
結論
本文中,我們提出了一個融合強化注意力機制和序列優化的圖像題注方法。首先,我們基于Faster R-CNN檢測特征和蒙特卡羅采樣設計出強化注意力機制;之后在序列優化階段,引入折扣因子和TF-IDF因子改進策略梯度的評估函數,使得生成題注時具有更強語義性的單詞有更大的獎賞值,從而貢獻出更多的梯度信息,更好地引導序列優化。總體上,我們的方法實現了圖像和語句之間更好的細粒度語義匹配。通過在MS COCO上的實驗,我們驗證了方法設計的有效性。
-
編碼器
+關注
關注
45文章
3645瀏覽量
134623 -
序列
+關注
關注
0文章
70瀏覽量
19569 -
蒙特卡羅
+關注
關注
0文章
11瀏覽量
21187
原文標題:一種基于強化注意力機制和序列優化的自動化圖像題注方法
文章出處:【微信號:SRA2009,微信公眾號:深圳市機器人協會】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論