到底什么是生成式對抗網(wǎng)絡(luò)GAN？

GitCafe 發(fā)布于2019-04-25 18:12 / 1792人閱讀

摘要：很多人可能會問這個故事和生成式對抗網(wǎng)絡(luò)有什么關(guān)系其實，只要你能理解這段故事，就可以了解生成式對抗網(wǎng)絡(luò)的工作原理。

男：哎，你看我給你拍的好不好？

女：這是什么鬼，你不能學(xué)學(xué)XXX的構(gòu)圖嗎？

男：哦

……

男：這次你看我拍的行不行？

女：你看看你的后期，再看看YYY的后期吧，呵呵

男：哦

……

男：這次好點了吧？

女：呵呵，我看你這輩子是學(xué)不會攝影了

……

男：這次呢？

女：嗯，我拿去當(dāng)頭像了

上面這段對話講述了一位“男朋友攝影師”的成長歷程。很多人可能會問：這個故事和生成式對抗網(wǎng)絡(luò)（GAN）有什么關(guān)系？其實，只要你能理解這段故事，就可以了解生成式對抗網(wǎng)絡(luò)的工作原理。

首先，先介紹一下生成模型（generative model），它在機器學(xué)習(xí)的歷史上一直占有舉足輕重的地位。當(dāng)我們擁有大量的數(shù)據(jù)，例如圖像、語音、文本等，如果生成模型可以幫助我們模擬這些高維數(shù)據(jù)的分布，那么對很多應(yīng)用將大有裨益。

針對數(shù)據(jù)量缺乏的場景，生成模型則可以幫助生成數(shù)據(jù)，提高數(shù)據(jù)數(shù)量，從而利用半監(jiān)督學(xué)習(xí)提升學(xué)習(xí)效率。語言模型（language model）是生成模型被廣泛使用的例子之一，通過合理建模，語言模型不僅可以幫助生成語言通順的句子，還在機器翻譯、聊天對話等研究領(lǐng)域有著廣泛的輔助應(yīng)用。

那么，如果有數(shù)據(jù)集S={x1，…xn}，如何建立一個關(guān)于這個類型數(shù)據(jù)的生成模型呢？最簡單的方法就是：假設(shè)這些數(shù)據(jù)的分布P{X}服從g(x;θ)，在觀測數(shù)據(jù)上通過較大化似然函數(shù)得到θ的值，即較大似然法：

GAN的工作原理是這樣的

文章開頭描述的場景中有兩個參與者，一個是攝影師（男生），一個是攝影師的女朋友（女生）。男生一直試圖拍出像眾多優(yōu)秀攝影師一樣的好照片，而女生一直以挑剔的眼光找出“自己男朋友”拍的照片和“別人家的男朋友”拍的照片的區(qū)別。于是兩者的交流過程類似于：男生拍一些照片 ->女生分辨男生拍的照片和自己喜歡的照片的區(qū)別->男生根據(jù)反饋改進自己的技術(shù)，拍新的照片->女生根據(jù)新的照片繼續(xù)提出改進意見->……，這個過程直到均衡出現(xiàn)：即女生不能再分辨出“自己男朋友”拍的照片和“別人家的男朋友”拍的照片的區(qū)別。

我們將視線回看到生成模型，以圖像生成模型舉例。假設(shè)我們有一個圖片生成模型（generator），它的目標(biāo)是生成一張真實的圖片。與此同時我們有一個圖像判別模型（discriminator），它的目標(biāo)是能夠正確判別一張圖片是生成出來的還是真實存在的。那么如果我們把剛才的場景映射成圖片生成模型和判別模型之間的博弈，就變成了如下模式：生成模型生成一些圖片->判別模型學(xué)習(xí)區(qū)分生成的圖片和真實圖片->生成模型根據(jù)判別模型改進自己，生成新的圖片->····

這個場景直至生成模型與判別模型無法提高自己——即判別模型無法判斷一張圖片是生成出來的還是真實的而結(jié)束，此時生成模型就會成為一個完美的模型。這種相互學(xué)習(xí)的過程聽起來是不是很有趣？

上述這種博弈式的訓(xùn)練過程，如果采用神經(jīng)網(wǎng)絡(luò)作為模型類型，則被稱為生成式對抗網(wǎng)絡(luò)（GAN）。用數(shù)學(xué)語言描述整個博弈過程的話，就是：假設(shè)我們的生成模型是g(z)，其中z是一個隨機噪聲，而g將這個隨機噪聲轉(zhuǎn)化為數(shù)據(jù)類型x，仍拿圖片問題舉例，這里g的輸出就是一張圖片。D是一個判別模型，對任何輸入x，D(x)的輸出是0-1范圍內(nèi)的一個實數(shù)，用來判斷這個圖片是一個真實圖片的概率是多大。令Pr和Pg分別代表真實圖像的分布與生成圖像的分布，我們判別模型的目標(biāo)函數(shù)如下：

類似的生成模型的目標(biāo)是讓判別模型無法區(qū)分真實圖片與生成圖片，那么整個的優(yōu)化目標(biāo)函數(shù)如下：

這個較大最小化目標(biāo)函數(shù)如何進行優(yōu)化呢？最直觀的處理辦法就是分別對D和g進行交互迭代，固定g，優(yōu)化D，一段時間后，固定D再優(yōu)化g，直到過程收斂。

一個簡單的例子如下圖所示：假設(shè)在訓(xùn)練開始時，真實樣本分布、生成樣本分布以及判別模型分別是圖中的黑線、綠線和藍線?？梢钥闯?，在訓(xùn)練開始時，判別模型是無法很好地區(qū)分真實樣本和生成樣本的。接下來當(dāng)我們固定生成模型，而優(yōu)化判別模型時，優(yōu)化結(jié)果如第二幅圖所示，可以看出，這個時候判別模型已經(jīng)可以較好的區(qū)分生成數(shù)據(jù)和真實數(shù)據(jù)了。第三步是固定判別模型，改進生成模型，試圖讓判別模型無法區(qū)分生成圖片與真實圖片，在這個過程中，可以看出由模型生成的圖片分布與真實圖片分布更加接近，這樣的迭代不斷進行，直到最終收斂，生成分布和真實分布重合。

以上就是生成式對抗網(wǎng)絡(luò)的基本核心知識，下面我們看幾個在實際中應(yīng)用的例子。

GAN在圖像中的應(yīng)用——DCGAN

為了方便大家更好地理解生成式對抗網(wǎng)絡(luò)的工作過程，下面介紹一個GAN的使用場景——在圖片中的生成模型DCGAN。

在圖像生成過程中，如何設(shè)計生成模型和判別模型呢？深度學(xué)習(xí)里，對圖像分類建模，刻畫圖像不同層次，抽象信息表達的最有效的模型是：CNN （convolutional neural network，卷積神經(jīng)網(wǎng)絡(luò)）。

CNN是深度神經(jīng)網(wǎng)絡(luò)的一種，可以通過卷積層（convolutional layer）提取不同層級的信息，如上圖所示。CNN模型以圖片作為輸入，以圖片、類別抽象表達作為輸出，如：紋理、形狀等等，其實這與人類對圖像的認(rèn)知有相似之處，即：我們對一張照片的理解也是多層次逐漸深入的。

那么生成圖像的模型應(yīng)該是什么樣子的呢？想想小時候上美術(shù)課，我們會先考慮構(gòu)圖，再勾畫輪廓，然后再畫細(xì)節(jié)，最后填充顏色，這事實上也是一個多層級的過程，就像是把圖像理解的過程反過來，于是，人們?yōu)閳D像生成設(shè)計了一種類似反卷積的結(jié)構(gòu)：Deep convolutional NN for GAN（DCGAN）

DCGAN采用一個隨機噪聲向量作為輸入，如高斯噪聲。輸入通過與CNN類似但是相反的結(jié)構(gòu)，將輸入放大成二維數(shù)據(jù)。通過采用這種結(jié)構(gòu)的生成模型和CNN結(jié)構(gòu)的判別模型，DCGAN在圖片生成上可以達到相當(dāng)可觀的效果。如下是一些生成的案例照片。

GAN在半監(jiān)督學(xué)習(xí)中的應(yīng)用

再來看一個GAN在半監(jiān)督學(xué)習(xí)（semi supervised learning）中的例子。假如我們面對一個多分類的任務(wù)，手里只有很少有標(biāo)注的樣本，同時有很多沒有標(biāo)注的樣本，怎么能夠利用GAN的思路合理使用無標(biāo)簽數(shù)據(jù)，提高分類性能呢？

在去年NIPS大會上，來自O(shè)penAI的作者提供了如下思路：考慮一個K分類任務(wù)，有一個判別模型 G可以幫助生成樣本，與此同時，有一個判別模型做一個K+1分類任務(wù)，其中新加的類是預(yù)測樣本是否是由生成模型生成的。跟傳統(tǒng)GAN不同，這里我們最終需要的是判別模型，而不是生成模型。

簡單而言，目標(biāo)函數(shù)針對不同數(shù)據(jù)，可以分為兩部分。對于有標(biāo)注的樣本，目標(biāo)是希望判別模型能夠正確輸出標(biāo)簽。而對于沒有標(biāo)注的生成樣本，則是由GAN定義的loss。

該作者認(rèn)為這樣處理的好處是可以充分利用未標(biāo)注數(shù)據(jù)來學(xué)習(xí)樣本分布，從而輔助監(jiān)督學(xué)習(xí)的訓(xùn)練過程。實驗結(jié)果也顯示通過這種處理方法訓(xùn)練出來的判別模型，在合理利用未標(biāo)注數(shù)據(jù)方面，有著比其他方法更好的效果。

GAN的改進——WGAN

剛才談到很多GAN的優(yōu)點、應(yīng)用和變種，那么GAN真的是完美無缺的嗎?

其實使用過GAN的人應(yīng)該知道，訓(xùn)練GAN有很多頭疼的問題。例如：GAN的訓(xùn)練對超參數(shù)特別敏感，需要精心設(shè)計。GAN中關(guān)于生成模型和判別模型的迭代也很有問題，按照通常理解，如果判別模型訓(xùn)練地很好，應(yīng)該對生成的提高有很大作用，但實際中恰恰相反，如果將判別模型訓(xùn)練地很充分，生成模型甚至?xí)儾?。那么問題出在哪里呢？

在ICLR 2017大會上有一篇口頭報告論文提出了這個問題產(chǎn)生的機理和解決辦法。問題就出在目標(biāo)函數(shù)的設(shè)計上。這篇文章的作者證明，GAN的本質(zhì)其實是優(yōu)化真實樣本分布和生成樣本分布之間的差異，并最小化這個差異。特別需要指出的是，優(yōu)化的目標(biāo)函數(shù)是兩個分布上的Jensen-Shannon距離，但這個距離有這樣一個問題，如果兩個分布的樣本空間并不完全重合，這個距離是無法定義的。

作者接著證明了“真實分布與生成分布的樣本空間并不完全重合”是一個極大概率事件，并證明在一些假設(shè)條件下，可以從理論層面推導(dǎo)出一些實際中遇到的現(xiàn)象。

既然知道了問題的關(guān)鍵所在，那么應(yīng)該如何解決問題呢？該文章提出了一種解決方案：使用Wasserstein距離代替Jensen-Shannon距離。并依據(jù)Wasserstein距離設(shè)計了相應(yīng)的算法，即WGAN。新的算法與原始GAN相比，參數(shù)更加不敏感，訓(xùn)練過程更加平滑。

GAN的未來

無論是無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)，GAN給我們提供了一個處理問題的嶄新思路，就是把博弈論引入到機器學(xué)習(xí)過程中來?？梢灶A(yù)見，GAN本身的算法以及看問題的角度，必將對未來設(shè)計算法、以及解決實際問題產(chǎn)生深遠的影響。

那么，GAN當(dāng)前有哪些急需解決的問題呢：

首先，針對圖片生成問題而言，一個至關(guān)重要的問題是GAN和其他方法比，到底好多少？GAN框架中的各種衍生算法相互比較，誰好誰壞？很可惜的是，現(xiàn)在沒有一個客觀的公認(rèn)標(biāo)準(zhǔn)去衡量不同圖片生成算法的差異性。其實這本身就是一個難題，因為人會從多角度判斷一張圖片是否真實，如圖片是否清晰、圖片物體線條顏色是否正確、圖片里是否有一些反直覺的物體等，只有有了合理的衡量標(biāo)準(zhǔn)，才能科學(xué)系統(tǒng)地研究并改進GAN的算法。

其次，GAN是著眼于對所有生成模型的學(xué)習(xí)，并不局限于圖像生成一個應(yīng)用層面。那么GAN如何運用于其他問題，如機器翻譯、對話生成、語音生成等？這些都是有趣、富有挑戰(zhàn)的事情。其實還有更有趣的事情，如GAN能不能生成真實場景作為模擬器，幫助訓(xùn)練自動駕駛？GAN能否生成逼真的虛擬視覺給人們提供全新的游戲體驗？

也許盜夢空間離我們很近，也許盜夢空間的創(chuàng)造者就是你。

參考文獻：

1.Wasserstein GAN

https://arxiv.org/abs/1701.07875

2.Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks

https://arxiv.org/abs/1511.06434

3.Improved techniques for training gans

https://arxiv.org/abs/1606.03498

4."Generative Adversarial Networks," NIPS 2016 tutorial by Ian Goodfellow

http://www.iangoodfellow.com/slides/2016-12-04-NIPS.pdf

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法，實際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報表系統(tǒng)等全方位知識

QQ群：81035754

云服務(wù)器 GPU云服務(wù)器前端到底是什么云計算到底是什么 python到底是什么 php到底是什么

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/4530.html

發(fā)表評論

登陸后可評論

0條評論

GitCafe

男|高級講師

我要關(guān)注我要私信

TA的文章

#圣誕節(jié)#SugarHosts：美國/香港虛擬主機低至6折，云服務(wù)器每續(xù)費一年送半年

閱讀 2111·2021-11-24 10:28
【C語言進階】??浮點數(shù)在內(nèi)存中的存儲（IEEE754標(biāo)準(zhǔn)）

閱讀 1114·2021-10-12 10:12
云主機怎么解析域名-云主機怎么綁定域名呢？

閱讀 3337·2021-09-22 15:21
#大硬盤#Servarica：2核/3G/2T HDD/100Mbps不限流量/加拿大/年付$72，

閱讀 679·2021-08-30 09:44
阿里云、騰訊云、UCloud年付百元機（上海機房1核2G內(nèi)存1Mbps帶寬云服務(wù)器）性能對比測評

閱讀 1895·2021-07-23 11:20
功能性組件和Classes有什么不同？

閱讀 1147·2019-08-30 15:56
瀏覽器滾動條優(yōu)化

閱讀 1751·2019-08-30 15:44
HTML和CSS 入門系列（一）：超鏈接、選擇器、顏色、盒模式、DIV布局、圖片

閱讀 1483·2019-08-30 13:55

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

到底什么是生成式對抗網(wǎng)絡(luò)GAN？

相關(guān)文章

**Google GAN之父 ICCV2017演講：解讀生成對抗網(wǎng)絡(luò)的原理與應(yīng)用**

**王飛躍等：生成式對抗網(wǎng)絡(luò) GAN 的研究進展與展望**

**為什么讓GAN一家獨大？Facebook提出非對抗式生成方法GLANN**

**生成式對抗網(wǎng)絡(luò)（GAN）如何快速理解？**

**深度學(xué)習(xí)的下一個熱點——GANs將改變世界**

發(fā)表評論

0條評論

GitCafe

男|高級講師

TA的文章

#圣誕節(jié)#SugarHosts：美國/香港虛擬主機低至6折，云服務(wù)器每續(xù)費一年送半年

【C語言進階】??浮點數(shù)在內(nèi)存中的存儲（IEEE754標(biāo)準(zhǔn)）

云主機怎么解析域名-云主機怎么綁定域名呢？

#大硬盤#Servarica：2核/3G/2T HDD/100Mbps不限流量/加拿大/年付$72，

阿里云、騰訊云、UCloud年付百元機（上海機房1核2G內(nèi)存1Mbps帶寬云服務(wù)器）性能對比測評

功能性組件和Classes有什么不同？

瀏覽器滾動條優(yōu)化

HTML和CSS 入門系列（一）：超鏈接、選擇器、顏色、盒模式、DIV布局、圖片

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

到底什么是生成式對抗網(wǎng)絡(luò)GAN？

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！