摘要:在等機構(gòu)新提出的論文中,其采用了大規(guī)模數(shù)據(jù)集與深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像的自然結(jié)構(gòu),從而進一步分離圖像的前景與背景。一張手動摳圖的前景圖擁有簡單背景作為輸入。對于每一張測試圖像,按照降序從第列到第列顯示了度量下的排名結(jié)果排名到。
摳圖,一直是一件體力活,它需要大量的操作與時間。而傳統(tǒng)摳圖算法主要是以色彩為特征分離前景與背景,并在小數(shù)據(jù)集上完成,而這就造成了傳統(tǒng)算法的局限性。在 Adobe 等機構(gòu)新提出的論文中,其采用了大規(guī)模數(shù)據(jù)集與深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像的自然結(jié)構(gòu),從而進一步分離圖像的前景與背景。
論文地址:https://arxiv.org/abs/1703.03872
摘要
摳圖(Image matting)是一項基本的計算機視覺問題,并擁有廣闊的應(yīng)用空間。當圖像的前景(foreground)和背景顏色或復(fù)雜紋理類似時,早先的算法表現(xiàn)得差強人意。主要是因為:1. 只有低級特征(low-level features);2. 缺乏高層次上下圖境(high-level context)。在本篇論文中,我們提出了一種基于深度學(xué)習(xí)的新算法,該算法可以解決這兩個問題。我們的深度模型分為兩個階段。第一階段是深度卷積編碼-解碼網(wǎng)絡(luò)(deep convolutional encoder-decoder network),該神經(jīng)網(wǎng)絡(luò)將圖像和相對應(yīng)的三分圖(trimap)作為輸入,并預(yù)測圖像的α蒙版(alpha matte)。第二階段是一個小型卷積神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)對第一個網(wǎng)絡(luò)預(yù)測的α蒙版進行精煉從而擁有更準確的α值和銳化邊緣。另外,我們還創(chuàng)建了一個大規(guī)模摳圖數(shù)據(jù)集(large-scale image matting dataset),該數(shù)據(jù)集包含 49300 張訓(xùn)練圖像和 1000 張測試圖像。我們在摳圖基準、測試數(shù)據(jù)集和各種真實圖像上評估了我們的算法。實驗結(jié)果清楚地表明了我們的算法比先前的方法更具優(yōu)越性。
簡介
摳圖(Image matting),即在圖像或視頻中較精確估計前景的問題,具有很重要的實用性。它是圖像編輯和電影制作的關(guān)鍵技術(shù),高效的自然圖像摳圖方法能極大地提升當前的圖像視頻處理流程的效率。并且這種技術(shù)是無約束場景(unconstrained scenes)下處理真實世界圖像的必要方法。
然而,目前摳圖算法還是具有很大的局限性:
首先第一個局限性就是目前用來求解摳圖方程式(matting equation)的方法存在問題。
其中 Ii 是像素塊 i 的 RGB 色彩,已知前景色彩 Fi,背景色彩 Bi,未知蒙版估計(matte estimation)αi。在這個方程式中,摳圖問題形式化為兩種顏色的線性組合,因此大多數(shù)現(xiàn)存的算法很大一部分都是將其近似求解色彩的問題。
另一個局限性就因為小數(shù)據(jù)集而產(chǎn)生。一般用于摳圖的數(shù)據(jù)真值(ground truth)是很復(fù)雜的,而 alphamatting.com 數(shù)據(jù)集通過提供標記數(shù)據(jù)集對摳圖研究做出了很重要的貢獻。不過因為該數(shù)據(jù)集僅僅只由 27 張訓(xùn)練圖像和 8 張測試圖像組成,那么這樣大小的數(shù)據(jù)集會帶來自然偏差(nature biased),訓(xùn)練出來的算法也會很難進行泛化。
在這項研究中,我們提出了一種旨在克服這些局限性的方法。我們的方法就是使用深度學(xué)習(xí)在給定輸入圖像和三分圖的基礎(chǔ)上直接計算α蒙版(alpha matte)。我們的神經(jīng)網(wǎng)絡(luò)并不首要依賴于色彩信息,它會學(xué)習(xí)圖像的自然結(jié)構(gòu),并將其反映到α蒙版中。例如毛發(fā)(通常需要將其摳出來)就擁有很強的結(jié)構(gòu)和紋理圖案,它們通常存在能抽取出的共同結(jié)構(gòu)或α蒙版輪廓。并且由于低層次的特征并不會捕獲這些結(jié)構(gòu),那么就需要深度神經(jīng)網(wǎng)絡(luò)去表征它們了。我們的兩階段神經(jīng)網(wǎng)絡(luò)包含了編碼器-解碼器階段和使用小型殘差網(wǎng)絡(luò)進行精煉階段。我們是第一個證明了在給定輸入圖像和三分圖的情況下能采用端到端的方式學(xué)習(xí)到α蒙版。
如下圖所示,實際上我們能在三分圖(trimap)未知前景或背景的情況下產(chǎn)生很好的結(jié)果,而在這種情況下,大多數(shù)算法都返回不了什么內(nèi)容。
圖 1:我們的方法和封閉形式的摳圖(Closed form matting)對比。第一張圖像是從 Alpha Matting 基準而來,第二張圖像是從我們千張測試圖像中抽取的。
為了訓(xùn)練我們的深度神經(jīng)網(wǎng)絡(luò),如下圖所示,我們將識別目標(前景)摳取出來,并放入不同的背景而構(gòu)建一個大型摳圖數(shù)據(jù)集。
圖 2:創(chuàng)建數(shù)據(jù)集。a) 一張手動摳圖的前景圖(擁有簡單背景)作為輸入。b) 經(jīng)計算的α蒙版。c) 經(jīng)計算的前景圖像,可以作為對象放入到各種背景圖像(d-f)中。
我們通過深度學(xué)習(xí)解決摳圖問題。給定一個新的數(shù)據(jù)集(大規(guī)模摳圖數(shù)據(jù)集),我們的神經(jīng)網(wǎng)絡(luò)能充分利用這些數(shù)據(jù)進行訓(xùn)練。并且該神經(jīng)網(wǎng)絡(luò)由以下兩個階段組成。
圖 3:我們的神經(jīng)網(wǎng)絡(luò)由兩階段組成,編碼-解碼階段(Sec. 4.1)和精煉階段 (Sec. 4.2)
精煉圖像的效果在圖 4 中展示了。注意,該精煉網(wǎng)絡(luò)并沒有大規(guī)模改變α蒙版,只不過是精煉并銳化α值。
圖 4:摳圖精煉網(wǎng)絡(luò)的效果。a) 輸入圖像。b) 編碼-解碼階段的輸出。c) 精煉階段的輸出結(jié)果
下一張圖表明了在 SAD 度量(SAD metric)下的排名結(jié)果。
圖 6:α蒙版預(yù)測使用「user」三分圖的「Troll」和「small」三分圖的「Doll」作為測試圖像。第一列顯示了測試圖像。對于每一張測試圖像,按照降序從第 2 列到第 6 列顯示了 SAD 度量(SAD metric)下的排名結(jié)果(排名 1 到 5)。在這兩個例子中,我們的方法都實現(xiàn)了較好的結(jié)果。
結(jié)論
為了泛化到自然圖像中,摳圖算法必須超越以色彩作為主要線索,并能利用更加結(jié)構(gòu)性和語義性的特征(structural and semantic features)。在該項研究中,我們展示了一種神經(jīng)網(wǎng)絡(luò),它有足夠的能力捕捉到高層次特征(high-order features),并利用它們計算且提升摳圖效果。實驗還展示了我們的方法不僅在標準數(shù)據(jù)集上優(yōu)于以前的方法,而且它在泛化到真實圖像上也顯著地比現(xiàn)存算法表現(xiàn)更優(yōu)良一些。 ?
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/4493.html
摘要:所以,我們美團外賣技術(shù)團隊嘗試結(jié)合技術(shù),來協(xié)助設(shè)計師避免這種低收益高重復(fù)的任務(wù),同時低成本高效率高質(zhì)量地完成海報圖片的生成。圖封面配色布局設(shè)計在設(shè)計領(lǐng)域的一些子問題上,可以用算法來挖掘出數(shù)據(jù)背后的規(guī)律如圖所示。 背景 在視覺設(shè)計領(lǐng)域中,設(shè)計師們往往會因為一些簡單需求付出相當多的時間,比如修改文案內(nèi)容,設(shè)計簡單的海報版式,針對不同機型、展位的多尺寸拓展等。這些工作需要耗費大量的時間、人力...
摘要:那些局部響應(yīng)由小的通常神經(jīng)補丁表示。概述我們尋求對損失函數(shù)進行了優(yōu)化的修復(fù)圖像,其被表示為三個項的組合整體內(nèi)容項,局部紋理項和項。我們的方法使用兩個聯(lián)合損失函數(shù)來解決未知圖像,即整體內(nèi)容損失和局部紋理損失。 完勝 PS!新方法實現(xiàn)完美腦補在分享照片之前,你可能會想進行一些修改,例如擦除分散注意力的場景元素,調(diào)整圖像中的物體位置以獲得更好的組合效果,或者把被遮擋的部分恢復(fù)出來。這些操作,以及其...
閱讀 3564·2023-04-26 02:05
閱讀 2003·2021-11-19 11:30
閱讀 4202·2021-09-30 09:59
閱讀 3175·2021-09-10 10:51
閱讀 2605·2021-09-01 10:30
閱讀 1470·2021-08-11 11:20
閱讀 2615·2019-08-30 15:54
閱讀 563·2019-08-30 10:49