Adobe提出深度摳圖：利用卷積網(wǎng)絡(luò)分離圖像前景與背景

soasme 發(fā)布于2019-04-25 18:10 / 1092人閱讀

摘要：在等機構(gòu)新提出的論文中，其采用了大規(guī)模數(shù)據(jù)集與深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像的自然結(jié)構(gòu)，從而進一步分離圖像的前景與背景。一張手動摳圖的前景圖擁有簡單背景作為輸入。對于每一張測試圖像，按照降序從第列到第列顯示了度量下的排名結(jié)果排名到。

摳圖，一直是一件體力活，它需要大量的操作與時間。而傳統(tǒng)摳圖算法主要是以色彩為特征分離前景與背景，并在小數(shù)據(jù)集上完成，而這就造成了傳統(tǒng)算法的局限性。在 Adobe 等機構(gòu)新提出的論文中，其采用了大規(guī)模數(shù)據(jù)集與深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像的自然結(jié)構(gòu)，從而進一步分離圖像的前景與背景。

論文地址：https://arxiv.org/abs/1703.03872

摘要

摳圖（Image matting）是一項基本的計算機視覺問題，并擁有廣闊的應(yīng)用空間。當圖像的前景（foreground）和背景顏色或復(fù)雜紋理類似時，早先的算法表現(xiàn)得差強人意。主要是因為：1. 只有低級特征（low-level features）；2. 缺乏高層次上下圖境（high-level context）。在本篇論文中，我們提出了一種基于深度學(xué)習(xí)的新算法，該算法可以解決這兩個問題。我們的深度模型分為兩個階段。第一階段是深度卷積編碼-解碼網(wǎng)絡(luò)（deep convolutional encoder-decoder network），該神經(jīng)網(wǎng)絡(luò)將圖像和相對應(yīng)的三分圖（trimap）作為輸入，并預(yù)測圖像的α蒙版（alpha matte）。第二階段是一個小型卷積神經(jīng)網(wǎng)絡(luò)，該神經(jīng)網(wǎng)絡(luò)對第一個網(wǎng)絡(luò)預(yù)測的α蒙版進行精煉從而擁有更準確的α值和銳化邊緣。另外，我們還創(chuàng)建了一個大規(guī)模摳圖數(shù)據(jù)集（large-scale image matting dataset），該數(shù)據(jù)集包含 49300 張訓(xùn)練圖像和 1000 張測試圖像。我們在摳圖基準、測試數(shù)據(jù)集和各種真實圖像上評估了我們的算法。實驗結(jié)果清楚地表明了我們的算法比先前的方法更具優(yōu)越性。

簡介

摳圖（Image matting），即在圖像或視頻中較精確估計前景的問題，具有很重要的實用性。它是圖像編輯和電影制作的關(guān)鍵技術(shù)，高效的自然圖像摳圖方法能極大地提升當前的圖像視頻處理流程的效率。并且這種技術(shù)是無約束場景（unconstrained scenes）下處理真實世界圖像的必要方法。

然而，目前摳圖算法還是具有很大的局限性：

首先第一個局限性就是目前用來求解摳圖方程式（matting equation）的方法存在問題。

其中 Ii 是像素塊 i 的 RGB 色彩，已知前景色彩 Fi，背景色彩 Bi，未知蒙版估計（matte estimation）αi。在這個方程式中，摳圖問題形式化為兩種顏色的線性組合，因此大多數(shù)現(xiàn)存的算法很大一部分都是將其近似求解色彩的問題。

另一個局限性就因為小數(shù)據(jù)集而產(chǎn)生。一般用于摳圖的數(shù)據(jù)真值（ground truth）是很復(fù)雜的，而 alphamatting.com 數(shù)據(jù)集通過提供標記數(shù)據(jù)集對摳圖研究做出了很重要的貢獻。不過因為該數(shù)據(jù)集僅僅只由 27 張訓(xùn)練圖像和 8 張測試圖像組成，那么這樣大小的數(shù)據(jù)集會帶來自然偏差（nature biased），訓(xùn)練出來的算法也會很難進行泛化。

在這項研究中，我們提出了一種旨在克服這些局限性的方法。我們的方法就是使用深度學(xué)習(xí)在給定輸入圖像和三分圖的基礎(chǔ)上直接計算α蒙版（alpha matte）。我們的神經(jīng)網(wǎng)絡(luò)并不首要依賴于色彩信息，它會學(xué)習(xí)圖像的自然結(jié)構(gòu)，并將其反映到α蒙版中。例如毛發(fā)（通常需要將其摳出來）就擁有很強的結(jié)構(gòu)和紋理圖案，它們通常存在能抽取出的共同結(jié)構(gòu)或α蒙版輪廓。并且由于低層次的特征并不會捕獲這些結(jié)構(gòu)，那么就需要深度神經(jīng)網(wǎng)絡(luò)去表征它們了。我們的兩階段神經(jīng)網(wǎng)絡(luò)包含了編碼器-解碼器階段和使用小型殘差網(wǎng)絡(luò)進行精煉階段。我們是第一個證明了在給定輸入圖像和三分圖的情況下能采用端到端的方式學(xué)習(xí)到α蒙版。

如下圖所示，實際上我們能在三分圖（trimap）未知前景或背景的情況下產(chǎn)生很好的結(jié)果，而在這種情況下，大多數(shù)算法都返回不了什么內(nèi)容。

圖 1：我們的方法和封閉形式的摳圖（Closed form matting）對比。第一張圖像是從 Alpha Matting 基準而來，第二張圖像是從我們千張測試圖像中抽取的。

為了訓(xùn)練我們的深度神經(jīng)網(wǎng)絡(luò)，如下圖所示，我們將識別目標（前景）摳取出來，并放入不同的背景而構(gòu)建一個大型摳圖數(shù)據(jù)集。

圖 2：創(chuàng)建數(shù)據(jù)集。a) 一張手動摳圖的前景圖（擁有簡單背景）作為輸入。b) 經(jīng)計算的α蒙版。c) 經(jīng)計算的前景圖像，可以作為對象放入到各種背景圖像（d-f）中。

我們通過深度學(xué)習(xí)解決摳圖問題。給定一個新的數(shù)據(jù)集（大規(guī)模摳圖數(shù)據(jù)集），我們的神經(jīng)網(wǎng)絡(luò)能充分利用這些數(shù)據(jù)進行訓(xùn)練。并且該神經(jīng)網(wǎng)絡(luò)由以下兩個階段組成。

圖 3：我們的神經(jīng)網(wǎng)絡(luò)由兩階段組成，編碼-解碼階段（Sec. 4.1）和精煉階段 (Sec. 4.2)

精煉圖像的效果在圖 4 中展示了。注意，該精煉網(wǎng)絡(luò)并沒有大規(guī)模改變α蒙版，只不過是精煉并銳化α值。

圖 4：摳圖精煉網(wǎng)絡(luò)的效果。a) 輸入圖像。b) 編碼-解碼階段的輸出。c) 精煉階段的輸出結(jié)果

下一張圖表明了在 SAD 度量（SAD metric）下的排名結(jié)果。

圖 6：α蒙版預(yù)測使用「user」三分圖的「Troll」和「small」三分圖的「Doll」作為測試圖像。第一列顯示了測試圖像。對于每一張測試圖像，按照降序從第 2 列到第 6 列顯示了 SAD 度量（SAD metric）下的排名結(jié)果（排名 1 到 5）。在這兩個例子中，我們的方法都實現(xiàn)了較好的結(jié)果。

結(jié)論

為了泛化到自然圖像中，摳圖算法必須超越以色彩作為主要線索，并能利用更加結(jié)構(gòu)性和語義性的特征（structural and semantic features）。在該項研究中，我們展示了一種神經(jīng)網(wǎng)絡(luò)，它有足夠的能力捕捉到高層次特征（high-order features），并利用它們計算且提升摳圖效果。實驗還展示了我們的方法不僅在標準數(shù)據(jù)集上優(yōu)于以前的方法，而且它在泛化到真實圖像上也顯著地比現(xiàn)存算法表現(xiàn)更優(yōu)良一些。 ?

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法，實際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報表系統(tǒng)等全方位知識

QQ群：81035754

GPU云服務(wù)器云服務(wù)器分離視頻前景背景卷積神經(jīng)網(wǎng)絡(luò)圖像識別快速摳圖背景利用c語言摳圖

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/4493.html

發(fā)表評論

登陸后可評論

0條評論

soasme

男|高級講師

我要關(guān)注我要私信

TA的文章

tensorflow

閱讀 3564·2023-04-26 02:05
GDI繪制Winform工作流組件、具有獨立圖層的增刪處理、防PPT效果

閱讀 2003·2021-11-19 11:30
外貿(mào)網(wǎng)站如何選擇服務(wù)器?外貿(mào)網(wǎng)站服務(wù)器價格多少錢?

閱讀 4202·2021-09-30 09:59
新型硅陽極電池走向市場，有望改變電子設(shè)備和電動汽車市場

閱讀 3175·2021-09-10 10:51
安科視頻監(jiān)控產(chǎn)品中的遠程代碼執(zhí)行漏洞允許黑客入侵設(shè)備

閱讀 2605·2021-09-01 10:30
raksmart：韓國獨立服務(wù)器測評（大陸優(yōu)化線路）

閱讀 1470·2021-08-11 11:20
css3 動畫（二）貝塞爾曲線

閱讀 2615·2019-08-30 15:54
CSS雙飛翼布局

閱讀 563·2019-08-30 10:49

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Adobe提出深度摳圖：利用卷積網(wǎng)絡(luò)分離圖像前景與背景

相關(guān)文章

AI技術(shù)在智能海報設(shè)計中的應(yīng)用

**AI 學(xué)會“腦補”：神經(jīng)網(wǎng)絡(luò)超逼真圖像補完從 0 到 1**

發(fā)表評論

0條評論

soasme

男|高級講師

TA的文章

tensorflow

GDI繪制Winform工作流組件、具有獨立圖層的增刪處理、防PPT效果

外貿(mào)網(wǎng)站如何選擇服務(wù)器?外貿(mào)網(wǎng)站服務(wù)器價格多少錢?

新型硅陽極電池走向市場，有望改變電子設(shè)備和電動汽車市場

安科視頻監(jiān)控產(chǎn)品中的遠程代碼執(zhí)行漏洞允許黑客入侵設(shè)備

raksmart：韓國獨立服務(wù)器測評（大陸優(yōu)化線路）

css3 動畫（二）貝塞爾曲線

CSS雙飛翼布局

最新活動