本文簡(jiǎn)單介紹ACMMM2023錄用的論文“Relational Contrastive Learning for Scene Text Recognition”的主要工作。該論文主要研究了基于對(duì)比學(xué)習(xí)的文本識(shí)別自監(jiān)督方法。文章受到基于上下文感知方法在文字監(jiān)督學(xué)習(xí)中取得的巨大成功[1],利用文本和背景的異質(zhì)性,將文字的上下文信息理解為文本基元的關(guān)系,為表征學(xué)習(xí)提供有效的自監(jiān)督標(biāo)簽。但是由于詞匯依賴[2],文本關(guān)系被限制在有限的數(shù)據(jù)集中,這可能導(dǎo)致過(guò)擬合并損害表征的魯棒性。因此,該文提出通過(guò)重排、分層和交互來(lái)豐富文本關(guān)系,并設(shè)計(jì)了一個(gè)統(tǒng)一的框架RCLSTR: Relational Contrastive Learning for Scene Text Recognition。實(shí)驗(yàn)表明,該方法能夠有效提升對(duì)比學(xué)習(xí)文本識(shí)別的自監(jiān)督性能。
一、背景介紹
場(chǎng)景文本圖像的特點(diǎn)與自然圖像有很大的不同。首先,前景(文本)和背景是異構(gòu)的,文本識(shí)別主要依賴于文本而不是背景。第二,大部分文本圖像通常具有從左到右的結(jié)構(gòu)。第三,文本圖像包含了字符序列和多粒度的結(jié)構(gòu)。先前的文本自監(jiān)督方法主要是從自然圖像遷移而來(lái)的,僅僅探索了文本的部分特點(diǎn)。該文章啟發(fā)于上下文感知方法在文字監(jiān)督學(xué)習(xí)中的成功應(yīng)用,在自監(jiān)督對(duì)比學(xué)習(xí)中充分探索文本的特點(diǎn)。提出通過(guò)重排、分層和交互來(lái)豐富文本關(guān)系,從而形成更完整的對(duì)比學(xué)習(xí)機(jī)制。
如上圖所示,首先,對(duì)于“重排”,文本圖像可以被分割并重新排列成新的上下文關(guān)系,該文設(shè)計(jì)了一個(gè)重排模塊來(lái)生成新的單詞圖像,豐富了文本關(guān)系的多樣性。第二,對(duì)于“分層”,由于文本圖像中存在詞、子詞、字符等多個(gè)不同粒度的對(duì)象,提出了一種分層結(jié)構(gòu)在多個(gè)層級(jí)上進(jìn)行表征學(xué)習(xí),從而豐富語(yǔ)義信息,增強(qiáng)表征的魯棒性。第三,對(duì)于“交互”,利用不同層級(jí)對(duì)象之間的交互,例如字符-子詞和子詞-詞相似度,約束不同層級(jí)上語(yǔ)義相似性的一致性,從而促進(jìn)學(xué)習(xí)高質(zhì)量的表征。
二、方法介紹
基于MoCo[3]的框架,該文提出了用于文本識(shí)別的關(guān)系對(duì)比學(xué)習(xí)框架(RCLSTR)。如下圖所示:1、在Online分支(上半部分)中引入了一個(gè)新的重排階段,從原始分支中產(chǎn)生水平重排的圖像,稱為關(guān)系正則化模塊(Relational Regularization)。2、文章設(shè)計(jì)了一個(gè)分層結(jié)構(gòu)來(lái)學(xué)習(xí)每一層內(nèi)部的關(guān)系,稱為分層關(guān)系模塊(Hierarchical Relation)。3、提出了一個(gè)跨層次關(guān)系一致性模塊(Cross-Hierarchy Relational Consistency),以便網(wǎng)絡(luò)學(xué)習(xí)層級(jí)之間的關(guān)系。
對(duì)于Relational Regularization,該文提出了一個(gè)重排模塊來(lái)生成新的文本圖像,生成的圖像包含更多的上下文關(guān)系。如下圖所示,該模塊將文本圖像水平劃分為幾個(gè)片段,然后隨機(jī)打亂,重新連接片段后生成重排后的圖像。重排后的圖像經(jīng)過(guò)Online編碼器和投影層后得到對(duì)應(yīng)特征,然后將特征復(fù)位到原始圖片中的位置。
文章分別計(jì)算了原始特征和正則化特征(對(duì)應(yīng)于重新排列的圖像)上的對(duì)比損失,然后將兩者求和得到:
對(duì)于Hierarchical Relation,考慮到文本在水平方向上具有不同的粒度,該文提出了一種分層的對(duì)比學(xué)習(xí)結(jié)構(gòu),通過(guò)不同粒度的池化層將特征映射到幀、子詞和詞三個(gè)層次,然后進(jìn)行分層級(jí)的關(guān)系對(duì)比學(xué)習(xí),每個(gè)層級(jí)計(jì)算對(duì)比損失(上標(biāo)指代幀、子詞和詞三個(gè)層級(jí)),并求和得到:
對(duì)于Cross-Hierarchy Relational Consistency,提出一致性約束來(lái)學(xué)習(xí)相鄰層之間的關(guān)系,實(shí)現(xiàn)幀-子詞和子詞-詞之間的一致性約束。對(duì)于幀-子詞關(guān)系,由于來(lái)自相同空間位置(在同一圖像中)的幀和子詞特征在特征空間中表現(xiàn)出更高的相似性,因此將其視為正樣本對(duì),將其他位置的特征視為負(fù)樣本對(duì),子詞-詞之間的正負(fù)對(duì)關(guān)系類似。該模塊通過(guò)KL損失來(lái)約束相似度分布之間的一致性:
其中表示幀-子詞一致性損失,表示子詞-詞一致性損失。最后總的損失函數(shù)為正則化的多層級(jí)損失和跨層級(jí)損失求和:
三、實(shí)驗(yàn)結(jié)果
表征質(zhì)量的結(jié)果如下表所示,與SeqMoCo的baseline相比,加入三個(gè)主要模塊后,基于CTC的解碼器性能平均提高了+12.38%,基于注意力的解碼器平均提高了+10.15%。同時(shí),該表也展示了三個(gè)關(guān)鍵模塊各自的有效性。
下圖是使用t-SNE[4]將IIIT5K[5]數(shù)據(jù)集圖像特征可視化的結(jié)果,對(duì)應(yīng)于SeqMoCo(Baseline)和該文的方法RCLSTR。可以看出,RCLSTR方法能更好地挖掘字符關(guān)系,對(duì)應(yīng)相同類別的字符特征能夠更好地成簇。
四、總結(jié)
該工作提出了一個(gè)新的場(chǎng)景文本識(shí)別的關(guān)系對(duì)比學(xué)習(xí)框架(RCLSTR)。在這個(gè)框架中,通過(guò)三個(gè)模塊對(duì)文本圖像之間的關(guān)系進(jìn)行了充分的探討。提出了Relational Regularization模塊,以豐富圖像內(nèi)部和圖像間的上下文關(guān)系。同時(shí)設(shè)計(jì)了用于關(guān)系對(duì)比學(xué)習(xí)的Hierarchical Relation模塊,在不同粒度上進(jìn)行分層級(jí)對(duì)比學(xué)習(xí)。此外,針對(duì)場(chǎng)景文本圖像中不同層次的交互,設(shè)計(jì)了Cross-Hierarchy Relational Consistency模塊。實(shí)驗(yàn)結(jié)果表明該方法能夠有效提升對(duì)比學(xué)習(xí)文本識(shí)別的自監(jiān)督性能。
-
解碼器
+關(guān)注
關(guān)注
9文章
1144瀏覽量
40828 -
模塊
+關(guān)注
關(guān)注
7文章
2725瀏覽量
47611 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24749
原文標(biāo)題:ACM MM 2023 | 上交提出RCLSTR:面向場(chǎng)景文本識(shí)別的關(guān)系對(duì)比學(xué)習(xí)
文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論