作為計算機視覺領域里的頂級會議,CVPR 2019 錄取論文代表了計算機視覺領域在2019年最新的科技水平以及未來發展潮流。今年有超過 5165 篇大會論文投稿,最終錄取 1299 篇。這些錄取的最新科研成果,涵蓋了計算機視覺領域各項前沿工作。而此次介紹的來自美國天普大學(Temple University)和美圖-亮風臺聯合實驗室的黃兵姚和凌海濱提出了端到端的投影廣度補償的策略。據了解,相關論文《End-to-end Projector Photometric Compensation》還入選了CVPR 2019 的oral presentation,代碼已經開源。
論文地址:
https://arxiv.org/abs/1904.04335v1
黃兵姚1,2,凌海濱1
1 天普大學
2 美圖亮風臺聯合實驗室,亮風臺信息科技
摘要
投影儀光度補償旨在修改投影儀輸入圖像,使得它可以抑制或抵消投影表面上面紋理或圖案帶來的干擾。
在本文中,我們首次將補償問題表述為端到端學習問題,并提出一個名為CompenNet的卷積神經網絡來隱含地學習復雜的補償函數。 CompenNet由一個類似UNet的骨干網和一個自動編碼器子網組成。這種架構鼓勵相機捕獲的投影表面圖像和輸入圖像之間的豐富的多級交互,因此捕獲投影表面的光度和環境信息。此外,視覺細節和交互信息是在多級跳過卷積層中進行的。該架構對于投影儀補償任務特別重要,因為在實踐中僅允許使用很小的訓練數據集來保證模型學習的速度。
我們做出的另一項貢獻是一種新穎的評估基準,它獨立于系統設置,因此可以進行定量驗證。據我們所知,由于傳統評估要求硬件系統實際投影最終結果,因此以前無法獲得此類基準測試。從我們的端到端問題公式出發,我們的主要思想是使用合理的替代來避免這種投影過程,從而達到獨立于系統設置的評估標準。我們的方法在基準測試中得到了仔細的評估,結果表明,我們提出的解決方案在定性和定量指標上都優于現有技術水平。
1. 介紹
圖1. (a)正常光照下的具有紋理和顏色的投影屏幕。(b)投影儀投射的圖片(也是我們想要看到的效果)。(c)相機拍攝到的,沒有補償的投影結果,即將(b)直接投影到(a)上。(d)我們模型計算出的補償圖。(e)相機拍到的補償后的效果,即將(d)投影到(a)上。比較(c)和(e),我們看到明顯提升的效果和細節。
投影儀廣泛用于演示,電影,結構光和投影映射等應用。為了保證用戶看到的投影質量,現有的投影儀系統典型地要求投影表面(屏幕)是白色和無紋理的,并且處在在合理的環境光照下。然而這種要求在很大程度上限制了這些系統的適用性。為了解決以上限制,投影儀光度補償,或簡稱投影儀補償,旨在通過修改投影儀輸入圖像來補償投影表面以及相關的環境光度。如圖1所示,其中補償的投影結果(e)明顯比未補償的投影結果(c)更令人視覺舒適。
典型的投影儀補償系統包括相機-投影儀對和放置在固定距離和方向上的投影表面。首先,投影儀將一系列采樣圖像投射到投影表面,然后投射的采樣圖像會根據投影表面材料被吸收,被反射或被折射。一旦相機捕獲了所有投影的采樣圖像,我們會根據投射的和捕獲的采樣圖像對來擬合一個從投影儀輸入圖到相機捕獲圖的復合輻射傳遞函數。然后使用該函數(或其反函數)推斷新的投影儀輸入圖像的補償圖像。現有的解決方案通常顯式地地對補償函數進行建模,其中通過各種簡化的假設,使得補償函數的估計變得容易。然而,這些假設往往是違反實際情況的,例如依賴于背景(第2節)。此外,由于投影,反射和捕獲這個光學過程的巨大復雜性,對補償過程顯式建模幾乎是不可能的。在本文中,我們首次提出了端到端投影儀補償方案,用以解決上述問題。我們首先將補償問題重新定義為一種可以在線學習的新穎形式,如同投影儀補償實際要求的那樣。這種問題構造就使得我們開發出一種名為CompenNet的卷積神經網絡(CNN),以隱含地學習復雜的補償函數。特別是,CompenNet由兩個子網組成,一個類似UNet的骨干網和一個自動編碼器子網。首先,自動編碼器子網激勵相機捕獲的投影表面圖像和投影儀輸入圖像之間的豐富的多層次交互,這樣我們可以提取到投影表面的光度和環境信息。其次,類似UNet的骨干網絡,我們也使用多級跳過卷積層將視覺細節和交互信息傳送到更深層和輸出層。這兩個子網共同使CompenNet在實踐中有效,并使得CompenNet學習從相機捕獲到的投影圖像到投影儀輸入圖像的復雜反向映射。此外,我們還設計了一個預訓練方案,只需犧牲一點精確度就可以進一步提高網絡訓練效率。本文討論的另一個問題是目前這個領域缺乏一個投影儀補償模型的評價基準,主要是因為傳統評價高度依賴于環境設置。具體地說,為了評估補償算法,理論上,其實驗結果是需要實際投影和捕獲,然后再定量地與真值進行比較。這個過程使得共享相同的評價基準不切實際的。在我們這項工作中,我們提出一個替代評價協議,該協議不要求實際投影。這樣,我們首次構建了一個可共享的獨立于環境設置的評價基準。
本文提出的投影儀補償網絡,即CompenNet,在替代評價基準上進行評估,該基準經過精心設計,以涵蓋各種具有挑戰性的因素。在實驗中, 與最先進的解決方案相比CompenNet顯示出明顯的優勢。總之,在本文中,我們做出以下貢獻:
1. 我們首次提出了一種用于投影儀補償的端到端解決方案。這種解決方案允許我們的系統有效地和隱式地捕獲投影儀補償過程中涉及的復雜光學過程。
2. 我們提出的CompenNet有兩個重要的子網,它們可以讓投影表面和投影儀輸入圖像之間實現豐富的多層次交互,并通過網絡傳輸交互信息和結構細節。
3. 我們提出了一種預訓練方法,以進一步提高我們系統的實用效率。
4. 我們首次構建了與獨立于環境設置的投影儀補償評價基準,這有助于這個領域將來的研究工作。源代碼,基準測試和實驗結果可在https://github.com/BingyaoHuang/CompenNet上獲得。
2. 相關研究
理論上,投影儀補償過程是一個非常復雜的非線性函數,涉及相機和投影儀傳感器的輻射響應,鏡頭失真/漸暈,散焦,表面材料反射特性和相互反射。目前已有大量的研究致力于設計實用和準確的投影儀補償模型,這些模型大致可分為情景相關和情景獨立的模型。詳細的討論可以在[4,12]中找到。
情景獨立的方法通常假設在投影儀輸入圖像和相機捕獲圖像的像素之間存在近似的一對一映射,即,相機捕獲圖像的像素僅取決于其對應的投影儀輸入圖像的像素,和被這個投影儀像素照明的表面塊。即,每個像素大致獨立于其鄰域像素。 Nayar等人的先驅工作提出了一種線性模型,該模型使用3×3顏色混合矩陣將投影儀光線亮度映射到相機檢測到的輻照度。 Grossberg等通過在相機捕獲的輻照度上添加3×1矢量來改善Nayar的工作并對環境光照進行建模。然而,他們需要一個光譜輻射計來標定相機的均勻輻射響應函數。此外,正如[20]中所指出的,即使使用光譜輻射計,通常也會違反均勻輻射響應的假設,更不用說線性度。考慮到傳遞函數的非線性,Sajadi等用93 = 729個采樣圖像擬合了一個平滑的高維Bezier貼片模型 。 Grundhofer和Iwai提出了一種基于薄板樣條(TPS)的方法,并將采樣圖像的數量減少到53 = 125,并通過全局優化步驟進一步處理剪切誤差和圖像平滑度。除了以數學方式優化圖像顏色之外,有一些方法還特別關注人類視覺感知特性,例如,Huang等人通過探索人類視覺系統的色彩適應和感知錨定屬性來生成令人視覺愉悅的投影圖像。此外,使用色域縮放可最大限度地減少由于相機/投影儀傳感器限制導致的剪切偽影。盡管以上方法在很大程度上簡化了投影儀補償問題,但由于諸如投影儀和投影表面的距離,透鏡畸變,散焦和表面相互反射等許多因素,在實踐中通常會違反情景獨立的假設。此外,顯然一條投影儀射線可以照射多個表面塊,一個表面塊也可以被其周圍表面塊的相互反射來照明,并且相機像素也是由多條貼片反射的光線確定的。
情景相關的方法通過考慮來自鄰域的信息來補償像素。 Grundhofer等通過先前分析投影表面和圖像來處理視覺偽像并提高亮度和對比度。Li等通過稀疏采樣和線性插值將采樣圖像的數量減少到至少兩個。他們提取多維反射矢量作為顏色傳遞函數控制點。由于采樣點的尺寸小,這種方法可能是敏感的投影或聚焦和鏡頭漸暈。使用這些不可靠的樣本進行簡單的線性插值可能會增加補償誤差。除了計算一個補償模型,Aliaga等引入了運行時線性縮放操作來優化多個投影儀補償。Takeda等提出了一種使用紫外LED陣列的相互補償方法。情景相關類方法通常通過集成更多信息來改進先前的情景獨立的方法。然而,由于全局照明,投影表面和輸入圖像之間的復雜相互作用,很難對理想的補償過程進行建模或近似。此外,大多數現有工作集中于減少像素顏色誤差,而不是同時改善與目標圖像的像素顏色誤差和結構相似性。我們的方法屬于情景相關類,并且實際上通過使用CNN結構來捕獲更豐富的情景信息。作為第一個端到端的基于學習的解決方案,我們的方法隱式且有效地模擬了復雜的投影儀補償過程。此外,我們提出的評價基準是第一個可以被共享的,可驗證的定量評估的基準。
我們的方法其實受到了最近的基于深度學習的圖到圖遷移模型的啟發,如pix2pix,CycleGAN,風格轉移,圖像超分辨率和圖像著色等。也就是說,作為第一個基于深度學習的投影儀補償算法,我們的方法與這些研究有很大的不同,并且有其特殊的約束條件。例如,與上述訓練一次然后就可以運用在不同場景的CNN模型不同,在我們的場景下如果系統設置發生了變化,則需要快速重新訓練投影儀補償模型。然而,在實踐中,采集訓練圖像和訓練模型都是耗時的。此外,諸如圖像裁剪和仿射變換之類的數據增強不適用于我們的任務,因為每個相機像素與其對應的投影儀像素的鄰域以及由像素照射的投影表面貼片強耦合。此外,一般圖到圖的遷移模型不能擬合在全局光照,投影儀背光和投影表面之間的復雜光譜相互作用。事實上,在我們的實驗評價中,我們所提出的方法在定性和定量指標上明顯的優于經典的pix2pix模型。
3. 深度投影儀補償
3.1 問題定義
我們的投影儀補償系統包括一個相機-投影儀對和一個平面投影表面。 令投影儀輸入圖像為x; 并讓投影儀和相機的復合幾何投影和輻射傳遞函數分別為πp和πc。 設表面光譜反射特性和光譜反射函數分別為s和πs。 讓全局照明輻照度分布為g,然后相機捕獲的圖像~x,由下式給出:
投影儀補償的問題是找到一個投影儀輸入圖像x*,名為x的補償圖像,使得相機捕獲的圖像與所希望的觀看者感知圖像一致,即,
然而,在上述情況下的光譜相互作用和光譜響應是非常復雜的,并且傳統方法并不能很好的解決。 此外,實踐中也很難直接測量g和s。 出于這個原因,我們使用相機捕獲的全局照明和投影儀背光下的表面圖像,并用這張圖捕捉它們的光譜相互作用:
圖2:所提出的投影儀補償管道的流程圖包括三個主要步驟。 (a)投影并捕捉投影表面圖和一組采樣圖像。 (b)使用投影表面圖和捕獲的圖像對訓練所提出的CompenNet,即π?θ。 (c)利用訓練的模型,補償輸入圖像y并投影。
其中x0理論上是一張全黑的圖。 實際上,即使輸入圖像為黑色,投影儀也會輸出一些背光πp(x0),因此我們將這個因子封裝在~s中。 當全局照明較低時,~s會受到因相機動態范圍導致的色域剪切影響,因此我們將x0設置為純灰色圖像以提供一些照明。 將方程式2中的復合輻射傳遞函數表示為π并用~s代替g和s,我們得到補償問題為
其中π?是π的逆函數,顯然沒有閉解。
3.2 基于學習的表述
基于學習的解決方案的關鍵要求是可用的訓練數據。 在下文中,我們推導出一種收集此類數據的方法。 觀察§3.1中的問題表述,我們發現:
這表明我們可以從采樣的(~x,x)和一張投影表面圖學習π?,如圖3所示。 事實上,一些先前的解決方案使用了類似的想法來擬合π?,但是基于一些簡單的假設和沒有考慮~s。 相反,我們使用深度神經網絡解決方案重新制定投影儀補償問題,該解決方案能夠保持投影儀補償的復雜性。 特別是,我們使用端到端可學習卷積神經網絡對補償過程進行建模,該網絡名為CompenNet,本文中表示為π?θ(見(圖2(b)),使得:
其中^x是~x(不是x)的補償,θ包含可學習的網絡參數。 值得注意的是,只要環境設置不變,就可以固定~s,因此在訓練和預測中只需要一個~s。 通過使用方程式5,我們可以生成N個訓練對,表示為然后,利用損失函數L,可以學習CompenNet:
我們的損失函數旨在通過結合逐像素L1范數和SSIM損失來共同優化補償圖像的結構與目標圖像的相似性:
這種損失函數優于其他損失函數的優點顯示在[39]和我們在表3和圖5中的綜合實驗比較中。
3.3 網絡設計
基于上述公式,我們的CompenNet設計有兩個輸入圖像,~x和~s,分別對應于相機捕獲的未補償圖x和相機捕獲的投影表面圖。 網絡架構如圖3所示。兩個輸入和輸出均為256×256×3 RGB圖像。 兩個輸入圖像都被饋送到一系列卷積層以進行降采樣并提取多級特征圖。 請注意,在圖3中,我們給出兩條不同的顏色的路徑,以指示兩個分支不共享權重。 然后通過逐點加法組合多級特征圖,使模型能夠學習在全局光照,投影背光,表面和投影圖像之間的復雜光譜相互作用。
圖3:CompenNet的體系結構(省略了ReLU層)。 所有卷積層由3×3卷積核組成,所有轉置卷積層由2×2卷積核組成。 上采樣和下采樣層都使用兩步。 每層的卷積核數量標在其頂部。 跳過卷積層以彩色箭頭顯示,為了簡介表示,層數和層數標記為#layers_#filters。 學習從相機捕獲的未補償圖到投影儀輸入圖(左:~x →x)的反向映射與學習從期望觀察者感知的圖到補償圖的映射(右:x →x *)其實是相同的。
我們還通過跳過卷積層將低級交互信息傳遞給高級特征。在網絡中間部分,我們通過逐漸增加特征通道來提取豐富的特征,同時保持特征圖的寬度和高度不變。然后,我們使用兩個轉置的卷積層逐漸將特征映射上采樣到256×256×32。最后,網絡的輸出是圖3底部的三個跳過卷積層和網絡最后層的輸出的和。注意我們在輸出之前將輸出圖像像素值鉗位到[0,1]。我們發現用更多的CNN層和卷積核,例如,512個卷積核可以產生更好的補償結果,但是會過擬合,并且會增加訓練和預測時間。但是,如果某個應用場景更偏重精確而不是速度,它可以添加更多卷積層,增加迭代次數并相應地捕獲更多訓練數據。在本文中,我們選擇圖3中的架構來平衡訓練/預測時間和采樣數據量。為了使該方法更實用,我們還通過使用白色投影表面投影和捕獲N(N = 500)個采樣圖像來提供預訓練模型。一旦設置(例如,投影表面或全局照明)改變,我們可以使用較少的(例如32個)采樣圖來微調預訓練的模型,而不是重新捕獲500個訓練圖像。該技術節省了數據準備和模型訓練的時間,相對于現有解決方案這更說明了我們的優勢。我們在§5.3中證明了預訓練模型的有效性。
3.4 訓練細節
我們使用PyTorch實現網絡模型并使用Adam優化器,我們設置β1= 0.9和L2范數懲罰因子設置為10-4。初始學習率設置為10-3,并且我們每800次迭代將其衰減5倍。 使用Kaiming He的方法初始化模型權重。 我們將批量大小設置為64,并在兩個Nvidia GeForce 1080 GPU上訓練模型1000次迭代,完成訓練需要大約10分鐘(500個訓練樣本)。 補充材料提供了不同超參數的評估。
3.5 補償管道
總而言之,所提出的投影儀補償管道包括圖2所示的三個主要步驟。(a)我們首先將純灰色圖像x0和N個采樣圖像x1,...,xN投影到平面投影表面并用相機捕獲它們。然后使用單應矩陣將每個捕獲的圖像變換到投影儀的正視圖,并使用我們令變換后的相機圖為~xi。(b)之后,我們收集N個圖像對(~xi,xi)并訓練投影儀補償模型π?θ。 (c)最后,利用訓練模型,我們為輸入圖像y生成補償圖像y *并將y *投影到表面。
4. 評價基準
目前為止,還有一個問題沒有解決,即以前的研究中缺乏一致的定量評估基準,主要是因為傳統評估實驗高度依賴環境設置。理論上,為了評估補償算法,其算出的輸入圖x的補償圖像x *應該被實際投射到投影表面,然后再由相機捕獲,最后與真值進行定量比較。這個過程顯然是不實用的,因為它要求所有參與比較的算法都具有相同的投影儀-相機-環境設置,以便公平地比較不同的算法。
在這項工作中,根據我們的問題定義,我們得出了一個有效的替代評估協議,該協議不要求實際的投影。基本上,根據方程式5,我們用采集訓練樣本相同的方式收集測試樣本。我們也可以用類似的方式評估算法。具體而言,我們在與訓練集X相同的系統設置下收集M個樣本的測試集
。然后,可以通過平均所有測試集上的輸入圖像yi及其算法輸出的相似度來測量算法性能。
上述協議允許我們構建一個投影儀補償評估基準,該基準由K個不同設置組成,每個設置具有訓練集Xk,測試集Yk和表面圖像~sk,k = 1,...,K。
系統配置。我們的投影儀補償系統包括圖像分辨率為960×640的佳能6D相機,以及分辨率為800×600的ViewSonic PJD7828HDL DLP投影儀。相機與投影儀之間的距離為500mm,投影表面在相機 - 投影儀對前方約為1,000mm。相機曝光模式,對焦模式和白平衡模式設置為手動,在數據采集和系統驗證期間固定全局照明。
數據集。為了獲得盡可能多樣化的采樣顏色和紋理,我們從因特網下載700個彩色紋理圖像,并且對于每個訓練集Xk使用N = 500,對于每個測試集Yk使用M = 200。總共K = 24個不同的設置準備用于訓練和評估。未來的工作可以復制我們的結果,并在基準測試中與CompenNet進行比較,而無需復現我們的環境設置。有關更多相機捕獲的補償結果和基準測試的詳細配置,請參閱補充材料。
(鏈接:
http://www.dabi.temple.edu/~hbling/publication/CompenNet_sup.pdf)
5. 實驗評估
5.1 與現有技術進行比較
我們將我們的投影儀補償方法和情景獨立的TPS模型,改進的TPS模型(下面解釋)和經典的圖到圖遷移模型pix2pix在我們的基準庫上進行了比較。我們首先捕獲了原始TPS方法中使用的125對純色采樣圖像。我們還使用我們了多樣化的紋理訓練集Xk來訓練TPS方法,并命名為TPS textured。表1和圖4中的實驗結果表明這使得TPS在原始TPS方法上有改進。然后,我們將我們的方法與pix2pix進行比較,以證明投影儀補償問題的挑戰,以及我們的配方和架構的優勢。 我們采用了pix2pix的默認實現,并根據補償問題對其進行了一些調整:
(1)如§2所述,數據增強會破壞投影儀,相機和投影表面的強耦合,因此,我們禁用裁剪,調整大小和翻轉,從而在相機,表面和投影儀圖像之間進行耦合。
(2)我們訓練pix2pix模型時批量大小設置為1并進行10000次迭代,這大約需要10分鐘。比較結果表明,我們的方法在此任務上的表現優于pix2pix。我們發現,當數據大小增加時,TPS textured獲得略微增加的SSIM并略微降低的PSNR。當訓練數據大小為250時, Pix2pix顯示最低的PSNR和SSIM,當訓練數據大小為500時其具有最高的PSNR和SSIM。當訓練數據大小從125增加到500時,只有建CompenNet實現更高的PSNR和SSIM(表1)。盡管CompenNet的性能有所提高,但大數據量的缺點是增加了數據捕獲時間。實際上,拍攝數百張采樣圖像非常耗時,因此,針對有限的訓練對和訓練時間時,我們提出了一種預訓練模型,其性能優于默認模型(§5.3)。除了上述的現有技術,我們還測試了不基于模型的“連續反饋的優化”方法,并發現它運作良好。然而,它的缺點是每個單幀都需要采集幾個真實的投影,捕獲和迭代。因此,該方法不太實用,也不能用于替代評估基準。
5.2 表面圖像的有效性
為了展示我們提出的基于學習的問題定義和投影表面圖是模型的一個必要輸入,我們比較了沒有表面圖輸入和相應的自動編碼器子網的CompenNet,我們將其命名為CompenNet w/o surf。結果如表1所示。首先,當模型輸入(CompenNet)中包含~s時,我們可以看到PSNR和SSIM的明顯增加以及RMSE的下降。這表明我們基于學習的公式比忽略表面圖像中編碼的重要信息的模型具有明顯的優勢。其次,在PSNR, RMSE和SSIM指標上,即使CompenNet w/o surf沒有~s也優于TPS,TPS textured和pix2pix。值得注意的是,對于新的投影環境設置,僅僅更換表面圖像效果不佳,我們必須要從頭開始訓練新的CompenNet。幸運的是,通過預先訓練的模型,我們可以從合理的初始化中進行微調,以減少訓練圖像的數量和訓練時間。
5.3 預先訓練的模型的有效性
我們比較默認的CompenNet模型(使用He 的初始化),和用投射到白色表面的500個訓練對預訓練的模型。然后,我們在多個不同設置下訓練和評估的兩個模型。
圖4:不同表面上TPS ,TPS textured,pix2pix 和CompenNet的比較。 第1列是相機捕獲的投影表面。 第二列是相機捕獲的未補償投影圖像。 第3至第6列是不同方法的相機拍攝到的補償結果。最后一列是投影儀輸入圖的真值。 每個圖像都配有兩個放大的小圖,以便進行詳細比較。 當使用各種紋理圖像進行訓練時,TPS比使用純色圖像的原始版本產生更好的結果,但仍然存在硬邊緣,塊狀效果和顏色錯誤。 與CompenNet相比,pix2pix會產生不平滑的像素化細節和顏色錯誤。
圖5:CompenNet的定性比較,訓練損失函數分別為L1,L2,SSIM和1 + SSIM。 它表明,L1和L2損失函數無法成功地補償表面圖案。 1 + SSIM和SSIM損失函數產生類似的結果,但SSIM放大圖中的水比1+ SSIM和真值的更藍。
為了證明預訓練模型在有限的訓練對和訓練時間內獲得改進的性能,我們僅使用32個訓練對和500次迭代訓練模型。 結果報告在表2中。顯然,我們看到預訓練的模型優于默認CompenNet即使是24個訓練和評估設置也有不同的照明和表面紋理作為預先訓練的設置。 我們的解釋是,盡管表面具有不同的外觀,但預訓練模型已經學習了部分輻射傳遞函數
表1:補償算法的定量比較。 結果在K = 24個不同設置上取平均值。
這種預先訓練的模型使我們的方法更加實用,即,只要不改變投影儀和相機,就可以用更少的訓練圖像快速微調預訓練模型,從而縮短圖像捕獲和訓練時間。 另外用32個訓練對和500此迭代訓練的CompenNet,比表1中的TPS ,TPS textured和pix2pix 表現更好。此外,CompenNet的參數(1M)比pix2pix的默認生成網絡(54M參數)少得多。 這進一步證實了投影儀補償是一個復雜的問題,并且不同于一般的圖到圖遷移任務,精心設計的模型是解決該問題所必需的。
5.4 不同損失函數的比較
現有的傳統工作用逐像素L2損失函數來線性/非線性回歸得到復合輻射傳遞函數,這種損失函數會過度平滑結構細節的同時懲罰大的像素誤差。我們研究了四種不同的損失函數,即逐像素L1損失,逐像素L2損失,SSIM損失和1 + SSIM損失。定性和定量比較分別如圖5和表3所示。與SSIM損失函數相比,逐像素L1和L2損失函數不能很好地補償表面圖案,注意圖5中紅色放大的圖中的硬邊緣。與定性結果一致,表3中也顯示出逐像素L1和L2損失函數明顯缺點。雖然僅實用SSIM損失可以獲得最佳的SSIM值,但其PSNR和RMSE是第二差的。經過我們的全面實驗,我們發現1 + SSIM損失獲得了最佳的PSNR / RMSE和第二好的SSIM,因此,我們選擇它作為我們的CompenNet的損失函數。此外,即使我們用逐像素L1損失訓練CompenNet,它也比TPS,TPS textured和pix2pix在三個指標上好,這進一步說明了我們針對任務設計的公式和網絡結構的優勢。
表2:使用He方法隨機初始化的CompenNet和預訓練的CompenNet之間的定量比較,兩者均僅使用32個樣本訓練,500次迭代,批次大小為32,訓練耗時大約170s。
表3:不同損失函數下CompenNet的定量比較。
5.5 缺點和不足
我們專注于為投影儀補償問題引入第一個端到端解決方案,該方法可用于平面的,不一定是理想的反射/幾何質量的投影表面。此外,我們還沒有針對具有特殊反射性能的表面,比如水,強光反射,幾何相互反射和半光澤的表面進行實驗,因此在這些情況下我們的模型可能效果不佳。
6. 結論
在本文中,我們將投影儀補償問題重新表述為一個學習問題,并提出一個名為CompenNet的精確實用的端到端解決方案。特別是,CompenNet明確捕獲了環境,投影表面和投影儀圖像之間復雜的光譜相互作用。我們的數學模型和架構的有效性得到了綜合評估的驗證。此外,我們首次為社區提供了一種新穎的獨立于設置的評估基準數據集。我們的方法在該基準測試中得到了仔細評估,結果表明,我們的端到端學習解決方案在質量和定量上都超過了現有方法。為了使我們的模型更加實用,我們提出了一種預訓練方法,它更增加了我們方法相對于現有工作的優勢。
-
神經網絡
+關注
關注
42文章
4773瀏覽量
100880 -
函數
+關注
關注
3文章
4337瀏覽量
62730 -
計算機視覺
+關注
關注
8文章
1698瀏覽量
46030
原文標題:亮風臺新提端到端AR投影光學補償算法 | CVPR 2019 Oral
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論