NVIDIA開源DG-Net：用GAN生成行人圖像，淘寶式換衣，輔助行人重識別

Hanks10100 發布于2019-07-31 11:30 / 2368人閱讀

摘要：通過生成高質量的行人圖像，將其與行人重識別模型融合，同時提升行人生成的質量和行人重識別的精度。若使用這些低質量的行人生成圖像來訓練行人重識別模型，會引入與原始數據集之間的差異。首次提出了利用生成的圖像輔助行人重識別的特征學習。

前幾天英偉達開源了DG-Net的源碼。讓我們來回顧一下這篇CVPR19 Oral的論文。

論文是英偉達(NVIDIA), 悉尼科技大學(UTS), 澳大利亞國立大學(ANU)的研究人員在CVPR19上口頭報告的文章《 Joint Discriminative and Generative Learning for Person Re-identification》。深度學習模型訓練時往往需要大量的標注數據,但收集和標注大量的數據往往比較困難。作者在行人重識別這個任務上探索了利用生成數據來輔助訓練的方法。通過生成高質量的行人圖像，將其與行人重識別模型融合，同時提升行人生成的質量和行人重識別的精度。
論文鏈接：https://arxiv.org/abs/1904.07223
B 站視頻： https://www.bilibili.com/vide...
騰訊視頻： https://v.qq.com/x/page/t0867...

代碼：https://github.com/NVlabs/DG-Net

Why：（之前論文的痛點有哪些？）

生成高質量的行人圖像有一定難度。之前一些工作生成的行人圖像質量相對低（如上圖）。主要體現在兩個方面：1.生成的真實度：行人不夠真實, 圖像模糊, 背景不真實； 2. 需要額外的標注來輔助生成：需要額外的人體骨架或者屬性標注。

若使用這些低質量的行人生成圖像來訓練行人重識別模型，會引入與原始數據集之間的差異（bias）。故之前的工作，要么僅僅把所有生成的行人圖像看成outlier來正則網絡；要么額外- 訓練一個生成圖像的模型，和原始模型做融合；要么就是完全不用生成的圖像去訓練。

同時，由于數據集的標注難度，行人重識別的訓練集（如Market和DukeMTMC-reID）數據量一般在2W左右，遠小于ImageNet等數據集，容易過擬合的問題也一直沒有很好解決。

What：（這篇論文提出了什么，解決了什么問題）

不需要額外標注（如姿態pose，屬性attribute，關鍵點keypoints等），就能生成高質量行人圖像。通過交換提取出的特征，來實現兩張行人圖像的外表互換。這些外表都是訓練集中真實存在的變化，而不是隨機噪聲。

不需要部件匹配來提升行人重識別的結果。僅僅是讓模型看更多訓練樣本就可以提升模型的效果。給定N張圖像，我們首先生成了NxN的訓練圖像，用這些圖像來訓練行人重識別模型。(下圖第一行和第一列為真實圖像輸入，其余都為生成圖像)

訓練中存在一個循環：生成圖像喂給行人重識別模型來學習好的行人特征，而行人重識別模型提取出來的特征也會再喂給生成模型來提升生成圖像的質量。

How：（這篇文章是怎么達到這個目標）

特征的定義：

在本文中，我們首先定義了兩種特征。一種為外表特征，一種為結構特征。外表特征與行人的ID相關，結構特征與low-level的視覺特征相關。

生成的部分：

同ID重構：相同人不同照片的appearance code應該是相同的。如下圖，

我們可以有一個自我重構的loss（上方，類似auto-encoder），還可以用同ID的postive sample來構建生成圖像。這里我們用了pixel-level的L1 Loss。

不同ID生成：

這是最關鍵的部分。給定兩張輸入圖像，我們可以交換他們的appearance 和 structure code來生成有意思的兩個輸出，如下圖。對應的損失有：維持真實性的GAN Loss，生成圖像還能重構出對應的a/s的特征重構損失。

我們的網絡中沒有隨機的部分，所以生成圖像的變化都是來自訓練集本身。故更接近原始的訓練集。

reID的部分：

對于真實圖像，我們仍舊使用分類的cross entropy loss。
對于生成圖像，我們使用了兩個loss，一個為L_{prime}，通過訓好的baseline模型當老師，來提供生成圖像的soft label，最小化預測結果和老師模型的KL距離。另一個loss，來挖掘一些圖像變了appearance后，仍保留的細節信息，為L_{fine}。（具體細節可以見論文。）

Results：

定性指標：

外表互換，我們在三個數據集上測試了結果，可以看到對于遮擋/大的光照變化，我們的方法都相對魯棒。

外表插值。網絡是不是記住了生成圖像的樣子。故我們做了一個逐漸改變appearance的實驗，可以看到外表是逐漸并且smooth地改變的。

失敗的案例。不常見的圖案如logo無法還原。

定量指標：

生成圖像的真實度（FID）和多樣性（SSIM）比較。FID越小越好，SSIM越大越好。

在多個數據集上的reID結果 (Market-1501, DukeMTMC-reID, MSMT17, CUHK03-NP)。

附：視頻Demo

B 站視頻備份： https://www.bilibili.com/vide...
騰訊視頻備份： https://v.qq.com/x/page/t0867...

最后，感謝大家看完。因為我們也處在初步嘗試和探索階段，所以不可避免地會對一些問題思考不夠全面。如果大家發現有不清楚的地方，歡迎提出寶貴意見并與我們一起討論，謝謝!

參考文獻

[1] Z. Zheng, L. Zheng, and Y. Yang. Unlabeled samples generated by gan improve the person re-identification baseline in vitro. ICCV, 2017.
[2] Y. Huang, J. Xu, Q. Wu, Z. Zheng, Z. Zhang, and J. Zhang. Multi-pseudo regularized label for generated samples in person reidentification. TIP, 2018.
[3] X. Qian, Y. Fu, T. Xiang, W. Wang, J. Qiu, Y. Wu, Y.-G. Jiang, and X. Xue. Pose-normalized image generation for person reidentification. ECCV, 2018.
[4] Y. Ge, Z. Li, H. Zhao, G. Yin, X. Wang, and H. Li. Fd-gan: Pose-guided feature distilling gan for robust person re-identification. In NIPS, 2018.

作者簡介

本文的第一作者鄭哲東是悉尼科技大學計算機科學學院的博士生，預計2021年 6 月畢業。該論文是其在英偉達實習期間的成果。

鄭哲東目前已經發表8篇論文。其中一篇為ICCV17 spotlight，被引用超過了300次。首次提出了利用GAN生成的圖像輔助行人重識別的特征學習。一篇TOMM期刊論文被Web of Science選為2018年高被引論文，被引用超過200次。同時，他還為社區貢獻了行人重識別問題的基準代碼，在Github上star超過了1000次，被廣泛采用。

另外，論文的其他作者包括英偉達研究院的視頻領域專家 - 楊曉東、人臉領域專家禹之鼎（Sphere Face，LargeMargin作者）、行人重識別專家鄭良博士，鄭哲東的導師楊易教授（今年有三篇 CVPR oral 中稿）、和英偉達研究院的VP Jan Kautz等。

鄭哲東個人網站：http://zdzheng.xyz/

GPU云服務器云服務器行人外行人輔助駕駛圖像識別淘寶圖像識別技術

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/45221.html

GitChat · 人工智能 | 自動駕駛的技術架構和生態發展

摘要：目前每年全球有萬人死于車禍，損失，相關于很多國家的，自動駕駛可以很大效率的減少車禍，拯救生命。美國汽車工程師協會和美國高速公路安全局將自動駕駛技術進行了分級。特定場所的高度自動駕駛。這叫基于規則的一種自動駕駛，簡單的。來自 GitChat 作者：劉盼更多IT技術分享，盡在微信公眾號：GitChat技術雜談進入 GitChat 閱讀原文我們先以汽車在現代科技領域的演進來開始這次的ch...

X1nFLY 2019-06-26 18:16 評論0 收藏0
用CNN分100,000類圖像

摘要：在這篇文章中我們嘗試了用分類類圖像。實際上我們將每張訓練集中的圖像認為成一類。我們采用了一個簡單的方法在最后分類前，讓文本和圖像使用一個，那么在過程中會用一個軟的約束，這就完成了詳見論文。類似圖像的操作吧。 Motivation在這篇文章中我們嘗試了用CNN分類113,287類圖像(MSCOCO)。實際上我們將每張訓練集中的圖像認為成一類。（當然, 如果只用一張圖像一類，CNN肯定會過擬合...

verano 2019-04-25 18:23 評論0 收藏0

發表評論

登陸后可評論

0條評論

Hanks10100

男|高級講師

我要關注我要私信

TA的文章

盲盒能夠持續火爆的原因

閱讀 901·2021-10-13 09:39
轉行測試的看過來！0基礎~自動化測試，我整理的超全學習指南...

閱讀 1486·2021-10-11 10:57
利用try catch跳出forEach循環

閱讀 2598·2019-08-26 13:53
react入門筆記

閱讀 2544·2019-08-26 12:23
WebGL 著色器偏導數dFdx和dFdy介紹

閱讀 3696·2019-08-23 18:30
JavaScript數據結構與算法-Sort-(leetcode原題)

閱讀 3755·2019-08-23 18:08
Echarts3.0 地圖自定義圖標

閱讀 2528·2019-08-23 18:04
JS每日一題：Webpack有哪些常見的Loader？他們是解決什么問題的？

閱讀 2964·2019-08-23 16:28

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

NVIDIA開源DG-Net：用GAN生成行人圖像，淘寶式換衣，輔助行人重識別

我們的網絡中沒有隨機的部分，所以生成圖像的變化都是來自訓練集本身。故更接近原始的訓練集。

相關文章

GitChat · 人工智能 | 自動駕駛的技術架構和生態發展

用CNN分100,000類圖像

發表評論

0條評論

Hanks10100

男|高級講師

TA的文章

盲盒能夠持續火爆的原因

轉行測試的看過來！0基礎~自動化測試，我整理的超全學習指南...

利用try catch跳出forEach循環

react入門筆記

WebGL 著色器偏導數dFdx和dFdy介紹

JavaScript數據結構與算法-Sort-(leetcode原題)

Echarts3.0 地圖自定義圖標

JS每日一題：Webpack有哪些常見的Loader？他們是解決什么問題的？

最新活動