前言
將A圖片的風格轉移到B圖片上,指的是將A圖片的抽象藝術風格(如線條、色彩等等)和B圖片的內容框架合成為一幅圖。自然地,A圖片稱為風格圖,而B圖片就稱為內容圖。就像這樣:
左側圖作為風格, 右側圖作為內容,中間合成圖。 (上圖是我用Gatys迭代法得到的結果)。
最近做了一段時間風格轉移的文獻調研,故寫此小結以順思路。圖片風格轉移在傳統圖像處理中有不少研究,本文只涉及基于神經網絡的方法。個人總結到目前主要有以下4個技術階段:
迭代合成法。合成圖片質量高,且可以進行任意風格轉移,但速度慢;
前饋網格法。合成速度快,但一個網絡只能進行一種風格轉移(風格單一),且合成圖片質量一般;
使用IN層替換BN層,提升了合成圖片的質量,加速了網絡訓練,但網絡的風格還是單一或局限于幾種;
使用IN層μμ和σσ匹配的網絡前饋法,最終實現任意風格的快速轉移。
本文將對這四個階段進行回顧,之后再涉及另一種風格轉移方法:基于GAN的圖片集合風格轉移。 最后,回顧技術,展望下未來的發展方向。
Stage1:iterative image style transfer (IST)
文章:
Image style transfer using convolutional neural networks,Gatys etc.
一句話總結:這篇文章為風格轉移提供了量化標度,提出使用 Gram矩陣來量化圖片的風格。并提出了基于VGG網絡的迭代式圖片合成方法。圖片生成質量較高。
將一幅圖片的風格轉移到另一幅畫上,首先要解決的問題自然是如何提取風格?*(也有不需要量化風格的,下面Extra章會講到)*Gatys 在這篇文章中提出用feature map的Gram矩陣來量化一幅圖片的風格。具體來說 ,一幅圖片結過網絡后,在第k層有M個feature map
,每個feature map的維度為H×W, 那么第kk層的Gram矩陣值為:
即第k層的Gram矩陣維度為M x M的矩陣, 其坐標(i,j)(i,j)處的元素值為與點乘后元素求和再歸一化得來。可以籠統認為Gram矩陣是同層的feature map之間的相似關系。
這個量化方法到底能多大程度上提取風格呢? 一種驗證的途徑是根據一張圖xGram矩陣G,如果能重建出具有風格x的圖片,則說明G對風格提取有一定作用(但不是充要條件,最終還是要看用來最后的合成過程中是否能指導圖像的生成),這種重建圖像的方法其實也是Gatys最后用于生成合成圖片的方法。不管怎么樣,先實驗起來吧。
驗證實驗是基于VGG網絡進行的,VGG網絡在圖片分類任務中已經取得了公認的成果,所以一般認為其各個輸出層的feature map應該是較好地提取了圖像的語義。VGG網絡的過程可以抽象表示為函數,x為輸入,yy為輸出,xx可以是所有層的輸出,也可以是其子集。將yy進一步根據上面的定義運算得到Gram矩陣的Vgg_G表示。Gatys提出了以迭代方式梯度下降的方法根據VGG網絡輸出重建圖片的方法,即:如果需要兩幅圖相同,需要兩幅圖經過VGG網絡后的輸出也相同。以vggvgg為例,步驟如下:
KaTeX parse error: Expected '}', got '_' at position 12: \textbf{vgg_?G}
先以隨機值生成圖像x′x,它經過網絡輸出為 y′。目標圖片為xx, 經過風格的輸出為yy。待重建的目標圖片x與x′的距離以來表示。那么以
x′=x′?η??y′?Lvgg(y,y′)
的方式對x′x進行更新,其實就是以vgg函數作為指引逼近目標x的過程,最終穩定后得到的就是重建的圖像。注意在迭代過程中網絡函數vggvgg不變,即VGG網絡的模型參數保持不變。
進行更新,其實就是以vggvgg
Gatys分別使用了vgg和vggG對圖片進行了重建。分別使用VGG網絡的第1到第5層的輸出指引重建,結果如下,上面星空圖是使用vggGvggG進行實驗, 下面建筑圖使用vggvgg進行重建:vgg
和vggGvggG
可以看出,在下面一排用vgg進行重建的實驗組中,重建的圖像風格相似,但內容框架已經完全錯亂了,所以確實可以理解為它更側重于保留風格而不注重框架。
我個人猜想Gram矩陣的想法是實驗驅動的。雖然不一定是對風格最好的量化(畢竟風格是很主觀的東西,也很難有最優答案),但Gatys提出的量度還是開創性且可用的。
有了上面的實驗,自然就會有這樣一個想法:如果既使用vggG將x′風格約束到一幅圖A,同時又使用vggvgg將x′內容框架約束到另一幅圖B,那重建出來的不就是“合成了” A與B嗎? 下面的圖就是描述的這個過程:
將x
上圖乍看挺復雜,其實思想很簡單。就是把vgg或者vggG的距離整合,可以看到圖中衡量距離的loss是將content與 style按比例系數αα和ββ整合到一起了,所以這兩個系數也會決定最終的生成圖片是更接近風格圖片還是更接近內容圖片。另外Gayts還發現由于這里的變量只有一個x′上面的梯度下降迭代可以用L-BFGS迭代來替換以更快地找到最優點。vggvggx′
或者vggGvggGGatys的工作提出了量化圖像風格的方法,并迭代地逼近一幅滿意的結果圖。這種方法的優點是生成的圖質量好,缺點是速度慢,每次要合成時都要迭代運算多次。
對于Gram矩陣能引導風格轉移的內在機理,Yanghao Li等人進行了研究,在下面Stage4.2中會敘及。
Stage2: fast IST
如上述,Gatys的方法生成圖片質量高,但在速度上不盡人意。我們知道一般神經網絡都是先訓練好,之后使用時只進行一次前饋推理即可,即 feed-forward one pass,而推理的速度是很快的,所以很自然地,神經網絡的研究者們馬上對這種方案的可行性進行了研究,并得到了令人滿意的結果 。以Johnson的文章作為代表進行總結。
文章:
Johnson, etc. Perceptual Losses for Real-Time Style Transfer and Super-Resolution
上圖是來自原文的截圖。 首先,他們將使用VGG 輸出作為衡量距離的loss起了個正式名字,叫perceptual loss。其實在Gatys的方法中用的正是這種loss,只不過沒有起名字。但后來的研究者就稱這種loss叫perceptual loss。
這篇文章要完成的任務很明確,給定一幅圖輸入圖x,網絡一次前饋就能給出具有風格的x。比較重要的一點是,這里網絡的是固定的,也就是說,一旦網絡訓練好,無論輸入x是什么,輸出的所有圖片都會被施以同一種風格變換。
從架構圖上看以看到,訓練時輸入圖x經過一個變換網絡得到一個這里的變換網絡是一個ResNet,變換網絡的結構在這里并不重要,所以這里沒有畫出。后面通過兩個loss來約束之間通過vgg后的loss,這里要說下為什么會有的名字。在原文中,上面的架構圖其實可以作兩個用途,一個是風格轉移,一個是單幀圖片超分辨。用作風格轉移的時,訓練時是x的高分辨圖label,且此時
所以,在大量的x訓練后,變換網絡將學習到如何將x
訓練后,變換網絡將學習到如何將y
總結一下這一階段的研究,就是使用前饋的方式大大提升了風格轉換的速度,但是引入了一個妥協:一個網絡只能變換一種風格。很自然的問題,為什么不設計成xx和ys都是可變的, 直接前饋輸出具有風格的?xx?的網絡? 我覺得這種想法一定有人嘗試過,但是這樣的作法要求網絡擬合的東西太多(不同的內容,不同的風格本質是對應的數據分布都不一樣,所以要求網絡在不同的數據分布上都得到好結果,也許這根本就不符合神經網絡的理論模型),導致網絡無法訓練成功。但下面?Stage4?會講到將x和都可變的這一目標最終被完成了,得益于加入了一些人工的先驗知識。
Stage3: fast, high quality IST
Stage2的工作將風格轉移的迭代工作方式變為了前饋生成式,速度得到極大改善。但這種方法與Gatys迭代法產生的結果圖的質量上有較大差距,畢竟Gatys方法可以按照loss函數實時逼近需求,而前饋網絡一旦訓練好則不可避免存在泛化能力的限制問題。所以如何在速度與質量較好地平衡? D.Ulyanov在這方面作了重要的推動(Stage2中也有他的重要工作,是基于GAN的思想)。他將傳統前饋網絡中的BatchNoramlization替換為InstanceNormalization,得到了高于Stage2的風格轉移效果。
文章:
1.Instance Normalization: The missing ingredient for fast stylization
2.Improved Texture Networks: Maximizing Quality and Diversity in Feed-forward Stylization and Texture Synthesis
3.1 Instance Normalization (IN)
為了兼顧效率與準確度,batch訓練是比較常用的一種訓練方法,即一次從訓練集空間中選擇多個訓練樣本進行訓練。Batch Normalization (BN)是Google的研究人員提出的一種神經網絡訓練技巧,它引入被證實可以有效抑制梯度消失,達到更好的訓練效果,至少在分類網絡中效果較明顯。它的有效性在《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》中有詳細實驗。BatchNormalization是將一層網絡的輸出值重新分布,使其不至于過于集中,而且可以抑制由于網絡隨機初始值所造成的數值數量級的差別。它的算法為:
上圖截取自Google研究人員發表的文章。其中是batch中的樣本在同一channel(或dimension的)的集合。注意最后數據在重分布后再施加一個線性拉伸和位移的操作,其參數是可訓練的(γ與$\beta $)。所以BN是按batch、按channel為單位做歸一化的數據重分布操作。 與BN相比,IN的算法數學表達基本一致,唯一不同的是,IN的操作單位是按樣本、按channel為單位的。下圖形象表示了BN與IN的區別:
圖中C為Channel, N為Batch, HW為高寬。
3.2 fast, high quality IST
為什么要提出IN ? Ulyanov沒有說明提出的思想過程。以下是個人理解。在Stage1中,衡量一幅圖風格的Gram矩陣表征一個樣本在同一網絡層不同 feature map之間的相似性,而BN是會在樣本與樣本之間串擾,和風格屬性的獨立性不兼容。而BN在分類網絡中效果較好是因為它在不同樣本間提取了不變的共性的東西,過濾了無關內容導致的分類變化,但這種思想對風格轉移并不是太適用。IN歸一化時只考慮自身的樣本分布,可能對風格轉移有提升作用。 Ulyanov利用Stage2中Johnson的工作中的網絡結構進行了實驗(即僅將原始網絡中的BN替換為IN),并證實了這一點:
第一列是內容圖,最后一列是風格圖。 StyleNet是指Johnson的網絡結構,由于其使用的歸一化是BN,所以這里為了區分用StyleNet BN來指示, StyleNet IN是指保持其它結構不變,僅將BN換作IN的網絡結構。 第四列是Gatys迭代法的結果(一般將其結果作為風格轉移的最優結果來看待)。 可以看到IN的加入確實對風格轉移網絡的訓練結果產生的明顯正向的影響。
總結: 這個階段將BN改為了IN,提升了風格轉移的圖片質量。但此階段的網絡依然是只能在特定的風格上進行轉換,多個風格轉換需要訓練多個網絡。 這里將IN單列為一個階段是因為后面發現IN的內涵其實是豐富的,對風格轉移作用巨大。
Stage4: fast, high quality, various IST
IN替換掉BN使得風格轉換的質量提升,實驗結論簡單但其內在原理待人挖掘。這個階段的工作對IN的作用進行了細致的研究。另外4.2的工作對Gatys方法的原理進行了探索,也得到好很有意義的結果。這些工作的互相啟發最終達到了可以實現任意風格轉移的網絡。
4.1 Conditional Instance Normalization(CIN)
文章:
A learned representation for artistic style (Vincent Dumoulin, etc)
單一風格的風格轉移網絡雖然可以完成風格轉移的任務,但占用空間大,N種風格需要準備N套全量網絡參數。Dumoulin認為這種架構浪費了一些信息的內在聯系。比如很多印象派畫家的筆法其實是相似的,只是選色有區別。所以他認為各種風格之間是有一定的共享計算維度的。繼續深入研究,他們發現了一個讓人驚訝的現象: 僅僅通過IN層中參數就足以對不同的風格建模! Domoulin沒有介紹發現的過程,結論是直接給出的。
這個發現意味著:可以訓練一個對多種風格進行轉移的網絡,網絡結構中除IN層之外的參數皆為共享,而在IN層操作中只需根據目標風格選擇其對應的,這種方法形象地被稱作conditional instance normalization(CIN)。如下圖:
根據CIN的思想,很容易進行網絡訓練。Domoulin也利用上文Johnson的網絡結構作相應的微小改動即進行了訓練:1)預定N種風格圖片,在訓練時隨機從內容圖片與風格圖片中選取作為訓練輸入; 2)網絡的每個IN層有N套 γ 和$ \beta$ 訓練參數,根據選擇的風格只對相應的γ β進行訓練更新,其它的γ β保持不變。
一個可以容納N種風格的網絡,假設其IN層操作的輸入有C個通道,需要γ β數組個數為2NC個,這個數據量比起Stage2中訓練NN套網絡要小得多,大大節約了空間。使用CIN的風格轉移效果如何呢? Domoulin在論文中的結論是與進行單一風格轉移的網絡效果相近。結果如下圖:
上圖是Domoulin從一個能夠進行32種風格轉換的網絡中選出的5種展示。可見確實進行了風格轉移,且效果明顯。 還是應該提一下,與Stage2不同的是,上圖中的圖像都是一個網絡產生的,對于不同的風格轉移任務,僅僅從訓練好的γβ組中選擇相應的組作用到IN層即可。γ
ββ
4.2 variance and mean determines the style
文章:
Demystifying Neural Style Transfer, Yanghao Li, etc.
Li這篇文章的主旨是將風格轉移任務看作是分布匹配(distribution alignment)任務,這是領域自適應過程(domain adaptation)的核心,所以領域自適應的知識可以拿過來分析風格轉移問題。由此出發,文章同時對Gatys方法的原理也進行了研究。Li 經過推導發現將Gram矩陣匹配作為網絡訓練的目標等價于最小化“最大均值偏差” ( Maximum Mean Discrepancy, MMD)。 MMD在領域自適應中被用于衡量兩個數據分布的距離,而風格本質就是一幅圖的數據分布特點,所以也可以衡量風格的相似性,故Gram矩陣是有效的。這讓我們從另一個維度看到了Gram矩陣的能力的原因所在。
文章另一個重要的點,也是與本小結密切相關的,是提出了用另一種風格度量來指導風格轉移(文章一共給了4種指導風格轉移的衡量方法,這里我們只關注其中的BN層分布匹配方法)。上面講到,文章的基本出發點是將風格轉移以領域自適應的方法作對比。文章認為風格轉移就是域匹配,BN層的數據分布,即以$\mu $與σ表示的分布,就包有著“域”的信息,所以匹配此兩者也可能匹配風格。于是Li做了實驗,即:將Gatys方法中以Gram矩陣為匹配目標的改為以μ和σ為匹配目標:
很顯然,這樣的loss將會迭代出一幅與風格圖的每一層μ和σ都相近的合成圖。下面是根據這種匹配規則的實驗結果,確實也可以進行風格轉移。
和σσ
但本文的重點在于研究風格轉移任務的本質,而沒有做一個任意風格轉移的網絡。其方法還是迭代的,在速率上自然也不是實時的。
4.3 arbitrary IST in one net
文章:
Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization, Xun Huang, etc.
受4.1和4.2的啟發,Huang等人最終做了一個任意風格、前向實時轉移的網絡。
4.2的工作可以確認網絡層的數據分布特征就是與風格密切相關,但Huang還是繼續做了一些實驗工作。在Stage3中,IN替換掉BN能提高風格轉移的效果,Ulyanov給出的解釋為IN層對不同的內容圖片的對比度變化有魯棒性。為了驗證這種說法,Huang將應用IN到網絡后的一些網訓練細節數據做了實驗。實驗在Stage3文章2的網絡結構上進行。結果比較圖中 (a)的訓練集是原始訓練集;(b)的訓練集是將原始訓練集圖片做了對比度統一預處理; ? 是將原始訓練集利用風格轉移方法先進行了風格統一預處理(但不是統一到目標風格上),再進行訓練。
可以看到,IN實際是比BN更快地降低風格loss,從而達到更好的訓練效果,這種優勢在(a)和(b)中都較明顯,所以 Ulyanov的解釋并不全對(由于對比度已經統一化,按照Ulyanov的解釋此時應該沒有明顯收益)。 而更有趣的是,在風格統一化的圖片集上,IN與BN對style loss的貢獻差別變得很小。這可以理解為風格已經統一化后的訓練數據已經在數據分布上沒有太多可學習的東西,所以IN與BN效果差別不大。
既然已經發現一幅的風格與它經過卷積層后的數據分布(μ和σ)強相關,如何將這種信息利用起來得到一個可以轉移任意風格的網絡?首先,Huang提出了一種自適應重分布的nomalization方法(Adaptive Normalization,, 簡稱AdaIN):
與σσ
假設一幅內容圖與風格圖經過網絡某層的輸出為x和y,對應分布特征分別為為(μ(x),σ(x))(μ(x),σ(x)),(μ(y),σ(y))(μ(y),σ(y))。 則AdaIN的做法是:x
和yy
即:將內容圖輸出x重分布到風格圖輸出y的均值和方差上去。
這意味著什么?4.1和4.2中的工作已經提到,對μ和σ的變換就會導致風格的變換。AdaIN操作等價于直接將風格信息加到了內容圖片的輸出上去。但是這些風格信息與內容圖紋理信息如何有機地結合恢復成最終的合成圖?這還是未知的。為解決該問題,Huang給出了如下網絡架構進行任意風格轉移:
和μμ
這里將VGG網絡當作編碼器使用。將內容圖與風格圖先經過VGG網絡編碼到feature map空間,接著將風格圖的feature map的分布特點按照AdaIN的方法施加到內容圖feature上去,得到一個兼有風格與內容的feature map。 之后該feature map經過解碼器恢復成一張圖。解碼器正是為了解決如果有機結合風格信息與內容信息,所以是需要被訓練的。網絡最后,VGG再次被用作編碼器是為了進行紋理和風格的loss計算。
下面就欣賞下該方案的效果吧:
圖中同列同內容,同行同風格。
終于,一個網絡,前向一次就可以搞定任意風格轉移!
Extra: Set to Set style transfer
文章:
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks, Junyan Zhu, etc.
這篇文章主要的思想其實是提出了一種新的GAN的工作方式,使用cycle-consistent約束避免普通GAN網絡的模式單一化問題,下面稱cycle-gan。
一般GAN網絡的流程是源樣本集X結過的生成器G生成假的目標集,之后接一個判別器DD?用于鑒別真假目標集?YY和經過生成器與判別器多輪博弈訓練,達到理想平衡的結果是GG生成的可以以假亂真。但這樣的網絡結構有模式單一化的風險,即任何來自XX的樣本都生成相同的x∈X,生成的
圖中,G和F是生成器,是判別器。可以看到,在cycle-gan中,有兩個生成器、兩個判別器。它們相互作用保證生成的圖片以假亂真,且保證生成樣本的多樣性。架構中有兩個轉換循環:
為了保證多樣性,架構中加入了consistent-loss(如mse loss),比如一個樣本x∈X,經過循環1后返回得到,應該有?x==
cycle-gan能夠達到的效果是將一個集合X中的樣本變換后達到與另外一個集合Y 真假難辨的程度。所以它自然可以風格轉移(但其用途遠不止風格轉移),比如我們將一些普通照片放在XX,將梵高的作品集放入YY中,則最終達到的效果是XX經過變換后的YY集合, 這樣μσ匹配法,cycle-gan的過程比較黑盒。X,
Conclusion
本文回顧了從最笨重的Gram矩陣匹配迭代生成到任意風格前饋式風格的發展,這中間有一些偶然的發現使得任意風格前饋合成變為可能,有些許巧合但也有一定的理論解釋。風格轉移從最初的Gram矩陣指引到normalization層的μ和σ匹配,深刻了人們對圖片中什么是“風格”什么是“內容”的認知。但是局限于深度學習的“可解釋性”,我們對“風格”轉移基本還是實驗主義的。 神經網絡的輸出也一直被稱為“feature”, 這是一個很抽象朦朧的名字。如何將一幅圖的風格獨立出來,也絕不會止于Gram矩陣和μμσσ的相似性,當我們對feature層的含義有更深層了解的時候,就會有更準確的對風格的刻化。
-
神經網絡
+關注
關注
42文章
4776瀏覽量
100948
原文標題:一文讀懂基于神經網絡的圖片風格轉移
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論