你想像編輯word文本一樣便捷地編輯照片中的文字嗎?像這樣:
和這樣:
讓別人感覺不到任何人為編輯的跡象:
近日來自印度的研究人員們近日提出了一種基于自編碼模型的字符替換方法,通過字符生成、顏色調節和重置完成對圖像中目標文字的修改,并且能生成十分自然的圖像,圖像中被編輯過的文字毫無違和感。圖片上的文字信息對于我們理解圖片十分重要。字符的缺失和改變有的時候會嚴重的影響我們對于圖像內涵的理解。除了會造成忍俊不禁的錯別字,有時候還會讓人們誤解造成嚴重的損失!
另一方面,對于不同視角、環境下得到字符缺失的圖片,如何進行有效的編輯和修復也是視覺領域一個重要的問題,甚至對于古文獻修復和案件偵破都有著重要意義。
像編輯文本一樣編輯圖像中的文字
如果我們能夠像文本編輯器一樣編輯圖像中的文字就好了。先前的人員提出過基于字符幾何特征的合成方法,但卻缺乏泛化性。但隨著深度學習的發展,研究人員提出了利用GAN來進行字符生成,但基于GAN生成字符進行編輯的方法也需要面臨一系列問題。首先基于GAN的生成需要對目標字符進行精確的識別,但字符識別本身就是一個復雜的問題,任何誤差都會在整個過程積累十分有可能造成字符編輯的錯誤;其次,字符在同一張圖像內具有多種字體類型,GAN模型需要對字體進行多次觀察,并在生成前對字符進行較為嚴格的字體去失真過程,這對于不同情況下的字符編輯來說十分復雜。
所以研究人員聚焦字符級別的生成模型,來代替單詞級別的生成模型最大化模型的靈活性和適應性。那么為了編輯圖像中的文字,怎樣才能又快又好呢?你需要四個步驟:定位到你要修改的字符、生成目標字符、調整目標字符的顏色、將字符融合回圖像中去。這一工作的核心在于解決如何生成具有相同字體的目標字符,并為它賦予原字符相同的顏色風格。為此,研究人員提出了下圖所示的FANet和ColorNet聯合完成。
首先選取需要修改的字符,并利用算法將原字符轉變為二值圖像輸入網絡。FANet首先通過一個三層卷積和兩次全連接將輸入字符編碼到512長度的向量上,其中包含了字體的風格信息。此外,目標字符的編碼通過26個字符的獨熱編碼轉換到512維的編碼上與先前得到的輸入字符圖像編碼拼接得到1024維的隱空間編碼。隨后利用兩個全連接和三次上采樣最終得到與原字符相同風格的目標字符。但這時候的字符還沒有顏色。那么就把原字符的顏色信息拿過來,繼續進行處理。通過編碼器解碼器的結構,將原字符上的顏色信息遷移到了新字符上。最后對原圖的對應區域進行背景去除,區域連續性處理,將得到的新字符放到合適的位置就可以得到修改后的圖片了!來看看效果~~
這本jave書有點厲害!
看到這些圖,你可能會覺得這些路標好像和上次看到的不一樣了!
為了訓練這個網絡,研究人員們利用了谷歌字符庫中的1000中字體,其中訓練集中包含了67.6萬個數據,驗證集則有20.2萬個數據。
最終的網絡不僅可以編輯字符,同時還能由輸入的單一字符生成出全部26個字母的新字體,下圖中的的字體都是由一個輸入字符生成出來的。
同樣顏色也可以遷移,下圖中的第二行表示輸入字符的顏色,第三行就是將第二行的顏色遷移到第一行字符的結果。
中文字符
那么按道理,我們也可以開心的編輯照片中的漢字了。華中科技大學和曠視去年就提出了一篇可以生成各種風格漢字書法的工作,利用生成器和判別器實現了中文書法字符的合成。
這是文章中的網絡結構:
和最后得到的結果:
我們可以基于同樣的思路將圖像中的中文字符也進行轉換,把照片中的漢字都變成優秀的書法作品啦。
-
word
+關注
關注
1文章
78瀏覽量
21939 -
圖像
+關注
關注
2文章
1084瀏覽量
40468 -
編碼
+關注
關注
6文章
942瀏覽量
54831
原文標題:如何如文本般順滑來編輯照片中的文字?
文章出處:【微信號:thejiangmen,微信公眾號:將門創投】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論