AI 學(xué)會(huì)“腦補(bǔ)”：神經(jīng)網(wǎng)絡(luò)超逼真圖像補(bǔ)完從 0 到 1

tulayang 發(fā)布于2019-04-25 18:08 / 2509人閱讀

摘要：那些局部響應(yīng)由小的通常神經(jīng)補(bǔ)丁表示。概述我們尋求對(duì)損失函數(shù)進(jìn)行了優(yōu)化的修復(fù)圖像，其被表示為三個(gè)項(xiàng)的組合整體內(nèi)容項(xiàng)，局部紋理項(xiàng)和項(xiàng)。我們的方法使用兩個(gè)聯(lián)合損失函數(shù)來(lái)解決未知圖像，即整體內(nèi)容損失和局部紋理?yè)p失。

完勝 PS！新方法實(shí)現(xiàn)完美“腦補(bǔ)”

在分享照片之前，你可能會(huì)想進(jìn)行一些修改，例如擦除分散注意力的場(chǎng)景元素，調(diào)整圖像中的物體位置以獲得更好的組合效果，或者把被遮擋的部分恢復(fù)出來(lái)。

這些操作，以及其他許多編輯操作，需要進(jìn)行自動(dòng)的孔洞填充（圖像補(bǔ)足），這是過(guò)去幾十年間計(jì)算機(jī)視覺(jué)和圖形領(lǐng)域的一個(gè)研究熱點(diǎn)。因?yàn)樽匀粓D像固有的模糊性和復(fù)雜性，整體填充也是長(zhǎng)期以來(lái)的難點(diǎn)。

但現(xiàn)在，這個(gè)問(wèn)題終于得到了比較好的解決，證據(jù)就是下面這幅圖。

這項(xiàng)全新研究的主要貢獻(xiàn)是：

提出了一個(gè)聯(lián)合優(yōu)化框架，可以通過(guò)用卷積神經(jīng)網(wǎng)絡(luò)為全局內(nèi)容約束和局部紋理約束建模，來(lái)虛構(gòu)出缺失的圖像區(qū)域。

進(jìn)一步介紹了基于聯(lián)合優(yōu)化框架的用于高分辨率圖像修復(fù)的多尺度神經(jīng)補(bǔ)丁合成算法。

在兩個(gè)公共數(shù)據(jù)集上評(píng)估了所提出的方法，并證明了其優(yōu)于基線和現(xiàn)有技術(shù)的優(yōu)勢(shì)。

克服現(xiàn)有方法局限，用深度學(xué)習(xí)風(fēng)格轉(zhuǎn)移合成逼真細(xì)節(jié)

我們稍后會(huì)詳細(xì)介紹這項(xiàng)研究成果。在此之前，有必要補(bǔ)充一下背景知識(shí)。

現(xiàn)有的解決孔洞填充問(wèn)題的方法分為兩組。第一組方法依賴于紋理合成技術(shù)，其通過(guò)擴(kuò)展周圍區(qū)域的紋理來(lái)填充空白。這些技術(shù)的共同點(diǎn)是使用相似紋理的補(bǔ)丁，以從粗到精的方式合成孔洞的內(nèi)容。有時(shí)，會(huì)引入多個(gè)尺度和方向，以找到更好的匹配補(bǔ)丁。Barnes et al.(2009) 提出了 PatchMatch，這是一種快速近似最近鄰補(bǔ)丁的搜索算法。

盡管這樣的方法有益于傳遞高頻紋理細(xì)節(jié)，但它們不抓取圖像的語(yǔ)義或全局結(jié)構(gòu)。第二組方法利用大型外部數(shù)據(jù)庫(kù)，以數(shù)據(jù)驅(qū)動(dòng)的方式虛構(gòu)缺失的圖像區(qū)域。這些方法假定被相似上下文包圍的區(qū)域可能具有相似的內(nèi)容。如果能找到和所查詢圖像具有足夠視覺(jué)相似度的圖像樣本，這種方法會(huì)非常有效，但是當(dāng)查詢圖像在數(shù)據(jù)庫(kù)中沒(méi)有被很好地表示時(shí)，該方法可能會(huì)失敗。另外，這樣的方法需要訪問(wèn)外部數(shù)據(jù)庫(kù)，這極大地限制了可能的應(yīng)用場(chǎng)景。

最近，深度神經(jīng)網(wǎng)絡(luò)被用于紋理合成和圖像的風(fēng)格化（stylization）。特別需要指出，Phatak et al（2016）訓(xùn)練了具有結(jié)合了和對(duì)抗性損失的編碼器 - 解碼器 CNN（Context Encoders）來(lái)直接預(yù)測(cè)丟失的圖像區(qū)域。這項(xiàng)工作能夠預(yù)測(cè)合理的圖像結(jié)構(gòu)，并且評(píng)估非?？?，因?yàn)榭锥磪^(qū)域的預(yù)測(cè)是在a single forward pass中進(jìn)行的。雖然結(jié)果令人鼓舞，但有時(shí)這種方法的修復(fù)結(jié)果缺乏精細(xì)的紋理細(xì)節(jié)，在空白區(qū)域的邊界周圍會(huì)產(chǎn)生可見(jiàn)的偽跡。這種方法也不能處理高分辨率圖像，因?yàn)楫?dāng)輸入較大時(shí)，和對(duì)抗性損失相關(guān)的訓(xùn)練會(huì)有困難。

在最近的一項(xiàng)研究中，Li和Wand（2016）指出，通過(guò)對(duì)圖像進(jìn)行優(yōu)化（該圖像的中間層神經(jīng)響應(yīng)與內(nèi)容圖像相似，底層卷局部響應(yīng)模仿style圖像的局部響應(yīng)），可以實(shí)現(xiàn)逼真的圖像stylization結(jié)果。那些局部響應(yīng)由小的（通常3×3）神經(jīng)補(bǔ)丁表示。該方法證明能夠?qū)⒏哳l率細(xì)節(jié)從style圖像傳輸?shù)絻?nèi)容圖像，因此適合于實(shí)際的傳遞任務(wù)（例如，傳遞面部或汽車的外觀）。盡管如此，通過(guò)使用神經(jīng)響應(yīng)的 gram matrices 能更好地進(jìn)行更多藝術(shù)風(fēng)格的傳遞。

好，是主角出場(chǎng)的時(shí)候了——

為了克服上述方法的局限性，來(lái)自伯克利、Adobe、Pinscreen 和 USC Institute for Creative Technologies 的研究人員提出了一種混合優(yōu)化方法（joint optimization），利用編碼器 - 解碼器CNN的結(jié)構(gòu)化預(yù)測(cè)和神經(jīng)補(bǔ)丁的力量，成功合成了實(shí)際的高頻細(xì)節(jié)。類似于風(fēng)格轉(zhuǎn)移，他們的方法將編碼器 - 解碼器預(yù)測(cè)作為全局內(nèi)容約束，并且將孔洞和已知區(qū)域之間的局部神經(jīng)補(bǔ)丁相似性作為風(fēng)格（style）約束。

更具體地說(shuō)，使用中間層的補(bǔ)丁響應(yīng)（該中間層使用預(yù)訓(xùn)練分類網(wǎng)絡(luò)），可以通過(guò)訓(xùn)練類似于 Context Encoder 的全局內(nèi)容預(yù)測(cè)網(wǎng)絡(luò)來(lái)構(gòu)造內(nèi)容約束，并且可以用環(huán)繞孔洞的圖像內(nèi)容來(lái)對(duì)紋理約束進(jìn)行建模?？梢允褂镁哂杏邢薮鎯?chǔ)的 BFGS 的反向傳遞算法來(lái)有效地優(yōu)化這兩個(gè)約束。

作者在論文中寫(xiě)道：“我們通過(guò)實(shí)驗(yàn)證明，新提出的多尺度神經(jīng)補(bǔ)丁合成方法可以產(chǎn)生更多真實(shí)和連貫的結(jié)果，保留結(jié)構(gòu)和紋理的細(xì)節(jié)。我們?cè)趦蓚€(gè)公共數(shù)據(jù)集上定量和定性地評(píng)估了所提出的方法，并證明了其在各種基線和現(xiàn)有技術(shù)上的有效性，如圖1 所示?！?/p>

圖1：對(duì)于給定的一張帶有孔洞（256×256）的圖像（512×512），我們的算法可以合成出更清晰連貫的孔洞內(nèi)容（d）。我們可以和用Context Encoders（b）、PatchMatch（c）這兩種方法產(chǎn)生的結(jié)果進(jìn)行比較。

具體方法

為了進(jìn)一步處理帶有大面積孔洞的高分辨率圖像，作者提出了一種多尺度神經(jīng)補(bǔ)丁合成方法。為了簡(jiǎn)化公式，假設(shè)測(cè)試圖像始終裁剪為 512×512，中間有一個(gè) 256×256 的孔洞。然后，創(chuàng)建一個(gè)三級(jí)金字塔，步長(zhǎng)為二，在每個(gè)級(jí)別將圖像縮小一半。它呈現(xiàn) 128×128 的較低分辨率，帶有 64×64 的孔洞。接下來(lái)，我們以從粗到精的方式執(zhí)行孔洞填充任務(wù)。初始化較低級(jí)別的內(nèi)容預(yù)測(cè)網(wǎng)絡(luò)的輸出，在每個(gè)尺度（1）執(zhí)行聯(lián)合優(yōu)化以更新孔洞；（2）upsample 以初始化聯(lián)合優(yōu)化并為下一個(gè)尺度設(shè)置內(nèi)容約束。最后，重復(fù)此步驟，直到聯(lián)合優(yōu)化以較高分辨率完成。

Framework 概述

我們尋求對(duì)損失函數(shù)進(jìn)行了優(yōu)化的修復(fù)圖像，其被表示為三個(gè)項(xiàng)的組合：整體內(nèi)容項(xiàng)，局部紋理項(xiàng)和tv-loss項(xiàng)。內(nèi)容項(xiàng)是捕獲圖像的語(yǔ)義和全局結(jié)構(gòu)的全局結(jié)構(gòu)約束，并且局部項(xiàng)通過(guò)使其與已知區(qū)域一致來(lái)重新定義局部紋理。內(nèi)容項(xiàng)和紋理項(xiàng)均使用具有固定參數(shù)的預(yù)訓(xùn)練網(wǎng)絡(luò)來(lái)計(jì)算。

圖2. Framework 概述。我們的方法使用兩個(gè)聯(lián)合損失函數(shù)來(lái)解決未知圖像，即整體內(nèi)容損失和局部紋理?yè)p失。通過(guò)將圖像饋送到預(yù)訓(xùn)練的內(nèi)容預(yù)測(cè)網(wǎng)絡(luò)，并且將輸出與推理（reference）內(nèi)容預(yù)測(cè)進(jìn)行比較來(lái)導(dǎo)出整體內(nèi)容損失。通過(guò)將 x 饋送到預(yù)訓(xùn)練網(wǎng)絡(luò)（稱為紋理網(wǎng)絡(luò)），并且在其特征圖上比較局部神經(jīng)補(bǔ)丁來(lái)導(dǎo)出局部紋理?yè)p失。

高分辨率圖像修復(fù)的算法

給定一個(gè)帶有孔洞的高分辨率圖像，我們產(chǎn)生了多尺度輸入其中S是尺度的數(shù)量。s = 1是最粗糙的尺度，s = S是輸入圖像的原始分辨率。我們以迭代多尺度方式進(jìn)行這一優(yōu)化。

我們首先將輸入縮小到粗糙尺度，計(jì)算內(nèi)容的推理（reference）。在實(shí)際操作中，我們?cè)?upsample 到一個(gè)新尺度時(shí)，將寬度和高度加倍。在每個(gè)尺度中，我們根據(jù)等式 1 更新，通過(guò) upsample 設(shè)置優(yōu)化初始，并通過(guò) upsample 在尺度上設(shè)置內(nèi)容 reference。我們因此迭代地取得高分辨率的修復(fù)結(jié)果。算法1 是對(duì)該算法的總結(jié)。

實(shí)驗(yàn)過(guò)程

數(shù)據(jù)集

我們?cè)趦蓚€(gè)不同的數(shù)據(jù)集上評(píng)估了我們提出的方法：Paris StreetView 和ImageNet 。不使用與這些圖像相關(guān)聯(lián)的標(biāo)簽或其他信息。 Paris StreetView 包含 14,900 個(gè)訓(xùn)練圖像和 100個(gè)測(cè)試圖像。 ImageNet 有 1,260,000 個(gè)訓(xùn)練圖像，以及從驗(yàn)證集隨機(jī)選取的 200 個(gè)測(cè)試圖像。我們還選擇了20個(gè)含干擾項(xiàng)的圖像，以測(cè)試我們用于真實(shí)干擾項(xiàng)移除場(chǎng)景的算法。

量化比較

我們首先在 Paris StreetView 數(shù)據(jù)集上就低分辨率圖像（128×128）將我們的方法和基線方法進(jìn)行了定量比較。表1中的結(jié)果表明，我們的方法實(shí)現(xiàn)了較高的數(shù)值性能。我們將這歸因于我們方法的性質(zhì)——和 PatchMatch 相比，它能夠推斷圖像的正確結(jié)構(gòu)，而和 Context Encoder 相比，它能夠從已知區(qū)域傳遞紋理細(xì)節(jié)。（圖3）我們優(yōu)于PatchMatch的結(jié)果表明，內(nèi)容網(wǎng)絡(luò)有助于預(yù)測(cè)合理的結(jié)構(gòu)。我們勝過(guò) Context Encoder 的結(jié)果表明，由紋理網(wǎng)絡(luò)執(zhí)行的神經(jīng)補(bǔ)丁合成方法的有效性。

表1：在Paris StreetView數(shù)據(jù)集上的數(shù)值比較。PSNR值越高越好。

圖3：Context Encoder（損失）、Context Encoders（對(duì)抗性損失）和PatchMatch的比較。當(dāng)從邊界向孔洞區(qū)域傳遞紋理時(shí)，我們的方法比Context Encoder（既使用損失也使用對(duì)抗性損失）表現(xiàn)更好。在推理正確結(jié)構(gòu)時(shí)，我們的方法比PatchMatch表現(xiàn)更好。

內(nèi)容網(wǎng)絡(luò)在聯(lián)合優(yōu)化中的作用。我們比較了使用內(nèi)容約束和不使用內(nèi)容約束的修復(fù)結(jié)果。如圖4 所示，當(dāng)不使用內(nèi)容項(xiàng)來(lái)引導(dǎo)優(yōu)化時(shí)，修復(fù)結(jié)果的結(jié)構(gòu)出錯(cuò)了。

圖4：（a）為原始輸入，（b）是不使用內(nèi)容約束產(chǎn)生的修復(fù)結(jié)果，（c）是我們的結(jié)果。

高分辨率圖像修復(fù)

圖5是在ImageNet數(shù)據(jù)集上的比較結(jié)果。從上至下：原始輸入，PatchMatch，Context Encoder（同時(shí)使用和對(duì)抗性損失），我們的結(jié)果。所有圖像分辨率都是512×512（本文中已縮小以適應(yīng)頁(yè)面顯示）。

圖6是在Paris StreetView數(shù)據(jù)集上的比較結(jié)果。從上至下：原始輸入，PatchMatch，Context Encoder（同時(shí)使用和對(duì)抗性損失），我們的結(jié)果。所有圖像分辨率都是512×512（本文中已縮小以適應(yīng)頁(yè)面顯示）。

真實(shí)世界干擾項(xiàng)去除場(chǎng)景

最后，我們的算法很容易擴(kuò)展為處理任意形狀的孔洞。這是通過(guò)估計(jì)任意孔洞周圍的邊界平方，填充孔洞內(nèi)的平均像素值，并通過(guò)裁剪圖像形成輸入，以使正方形邊界框處于輸入的中心，并將輸入調(diào)整為內(nèi)容網(wǎng)絡(luò)輸入的大小。然后，我們使用已經(jīng)訓(xùn)練的內(nèi)容網(wǎng)絡(luò)進(jìn)行前向傳播。在聯(lián)合優(yōu)化中，紋理網(wǎng)絡(luò)對(duì)自然中孔洞的形狀和位置沒(méi)有限制。這是分離將內(nèi)容和紋理項(xiàng)分離的額外好處。由于 Context Encoder 僅限于方孔，我們?cè)趫D7中展示了和 PatchMatch 的對(duì)比結(jié)果。如圖所示，我們提出的聯(lián)合優(yōu)化方法更好地預(yù)測(cè)了結(jié)構(gòu)，并提供了清晰和逼真的結(jié)果。

圖7：隨意對(duì)象的去除。從左到右：原始輸入，對(duì)象遮擋，PatchMatch 結(jié)果，我們的結(jié)果。

結(jié)論

作者使用神經(jīng)補(bǔ)丁合成提升了語(yǔ)義修復(fù)的現(xiàn)有技術(shù)?？梢钥吹?，當(dāng)內(nèi)容網(wǎng)絡(luò)給出較強(qiáng)的關(guān)于語(yǔ)義和全局結(jié)構(gòu)的先驗(yàn)信息時(shí)，紋理網(wǎng)絡(luò)在生成高頻細(xì)節(jié)方面非常強(qiáng)大。有一些場(chǎng)景復(fù)雜的情況，這種新的方法會(huì)產(chǎn)生不連續(xù)性和違背真實(shí)的圖像（圖8）。此外，速度仍然是這種算法的瓶頸。研究人員的目標(biāo)是在未來(lái)的工作中解決這些問(wèn)題。

圖8：這是兩個(gè)聯(lián)合優(yōu)化法失敗的例子。

論文：使用多尺度神經(jīng)補(bǔ)丁合成修補(bǔ)高分辨率圖像

摘要

對(duì)于帶有語(yǔ)義合理性和情境感知細(xì)節(jié)的自然圖像，深度學(xué)習(xí)的進(jìn)展為填充這些圖像上的大面積孔洞帶來(lái)了樂(lè)觀的前景，并影響了諸如對(duì)象移除這樣的基本的圖像處理任務(wù)。雖然這些基于學(xué)習(xí)的方法在捕獲高級(jí)特征方面比現(xiàn)有技術(shù)明顯更有效，但由于存儲(chǔ)器限制和訓(xùn)練困難，它們只能處理分辨率很低的輸入。即使對(duì)于稍大的圖像，修復(fù)的區(qū)域也會(huì)顯得模糊，而且可以看到令人不快的邊界。我們提出一種基于圖像內(nèi)容和風(fēng)格（style）約束聯(lián)合優(yōu)化的多尺度神經(jīng)補(bǔ)丁合成方法，不僅保留上下文結(jié)構(gòu)，而且通過(guò)匹配和適應(yīng)具有與深度分類網(wǎng)絡(luò)相似的中層特性的補(bǔ)丁，可以產(chǎn)生高頻細(xì)節(jié)。我們?cè)?ImageNet 和 Paris Streetview 數(shù)據(jù)集上評(píng)估了我們的方法，并實(shí)現(xiàn)了較先進(jìn)的修復(fù)精度。我們表明，相對(duì)于之前的方法，我們的方法可以產(chǎn)生更清晰和更連貫的結(jié)果，特別是對(duì)于高分辨率圖像來(lái)說(shuō)。

論文地址：https://arxiv.org/pdf/1611.09969.pdf

Github 代碼：https://github.com/leehomyc/High-Res-Neural-Inpainting

歡迎加入本站公開(kāi)興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法，實(shí)際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉(cāng)庫(kù)，數(shù)據(jù)挖掘工具，報(bào)表系統(tǒng)等全方位知識(shí)

QQ群：81035754

GPU云服務(wù)器云服務(wù)器從0到1搭建視頻通話系統(tǒng) 從0開(kāi)始到1千萬(wàn)用戶 ai智能圖像識(shí)別 face_sdk-1.0.0

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://specialneedsforspecialkids.com/yun/4459.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

tulayang

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

自動(dòng)化測(cè)試框架指南

閱讀 1582·2021-09-02 15:41
Python正則表達(dá)式保姆式教學(xué)，帶你精通大名鼎鼎的正則！

閱讀 992·2021-09-02 15:11
RackNerd：$19.99/年KVM-1.8GB/28GB/3TB/洛杉磯機(jī)房

閱讀 1274·2021-07-28 00:15
支付寶小程序編譯less

閱讀 2296·2019-08-30 15:55
偽元素的margin值擠壓主體元素解決

閱讀 1137·2019-08-30 15:54
5分鐘理解BFC原理

閱讀 1685·2019-08-30 15:54
我是如何通過(guò)debug成功甩鍋瀏覽器的：解決fixed定位元素，在頁(yè)面滾動(dòng)后touch事件失效問(wèn)題

閱讀 2967·2019-08-30 14:02
JavaScript 高級(jí)程序設(shè)計(jì)（第三版）筆記

閱讀 2516·2019-08-29 16:57

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

AI 學(xué)會(huì)“腦補(bǔ)”：神經(jīng)網(wǎng)絡(luò)超逼真圖像補(bǔ)完從 0 到 1

相關(guān)文章

**感知對(duì)抗網(wǎng)絡(luò) PAN，一個(gè)框架搞定多種圖像轉(zhuǎn)換**

專訪Goodfellow：欲在谷歌打造GAN團(tuán)隊(duì)，用假數(shù)據(jù)訓(xùn)練真模型

“未卜先知”、“自學(xué)成才”：GANs奇思妙想TOP10榜單

吃了這些數(shù)據(jù)集和模型，跟 AI 學(xué)跳舞，做 TensorFlowBoys

最強(qiáng)GAN修圖魔術(shù)師：美顏生發(fā)摘眼鏡、草繪秒變真人臉

發(fā)表評(píng)論

0條評(píng)論

tulayang

男|高級(jí)講師

TA的文章

自動(dòng)化測(cè)試框架指南

Python正則表達(dá)式保姆式教學(xué)，帶你精通大名鼎鼎的正則！

RackNerd：$19.99/年KVM-1.8GB/28GB/3TB/洛杉磯機(jī)房

支付寶小程序編譯less

偽元素的margin值擠壓主體元素解決

5分鐘理解BFC原理

我是如何通過(guò)debug成功甩鍋瀏覽器的：解決fixed定位元素，在頁(yè)面滾動(dòng)后touch事件失效問(wèn)題

JavaScript 高級(jí)程序設(shè)計(jì)（第三版）筆記

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

AI 學(xué)會(huì)“腦補(bǔ)”：神經(jīng)網(wǎng)絡(luò)超逼真圖像補(bǔ)完從 0 到 1

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！