摘要:于是,中將做了拆解,認為中生成模型應該包含的先驗分成兩種不能再做壓縮的和可解釋地有隱含意義的一組隱變量,簡寫為。利用這種更加細致的隱變量建??刂?,可以說將的發展又推動了一步。
摘要
在過去一兩年中,生成式模型 Generative Adversarial Networks(GAN)的新興為生成式任務帶來了不小的進展。盡管 GAN 在被提出時存在訓練不穩定等諸多問題,但后來的研究者們分別從模型、訓練技巧和理論等方面對它做了改進。本文旨在梳理這些相關工作。
盡管大部分時候,有監督學習比無監督的能獲得更好的訓練效果。但真實世界中,有監督學習需要的數據標注(label)是相對少的。所以研究者們從未放棄去探索更好的無監督學習策略,希望能從海量的無標注數據中學到對于這個真實世界的表示(representation)甚至知識,從而去更好地理解我們的真實世界。
評價無監督學習好壞的方式有很多,其中生成任務就是最直接的一個。只有當我們能生成/創造我們的真實世界,才能說明我們是完完全全理解了它。然而,生成任務所依賴的生成式模型(generative models)往往會遇到兩大困難。首先是我們需要大量的先驗知識去對真實世界進行建模,其中包括選擇什么樣的先驗、什么樣的分布等等。而建模的好壞直接影響著我們的生成模型的表現。另一個困難是,真實世界的數據往往很復雜,我們要用來擬合模型的計算量往往非常龐大,甚至難以承受。
而在過去一兩年中,有一個讓人興奮的新模型,則很好地避開了這兩大困難。這個模型叫做 Generative Adversarial Networks(GAN),由 [1] 提出。在原始的 GAN paper [1] 中,作者是用博弈論來闡釋了 GAN 框架背后的思想。每一個 GAN 框架,都包含著一對模型 —— 一個生成模型(G)和一個判別模型(D)。因為 D 的存在,才使得 GAN 中的 G 不再需要對于真實數據的先驗知識和復雜建模,也能學習去逼近真實數據,最終讓其生成的數據達到以假亂真的地步 —— D 也無法分別 —— 從而 G 和 D 達到了某種納什均衡。[1] 的作者曾在他們的 slides 中,給出過一個比喻:在 GAN 中,生成模型(G)和判別模型(D)是小偷與警察的關系。G 生成的數據,目標是要騙過身為警察的判別模型(D)。也就是說,G 作為小偷,要盡可能地提高自己的偷竊手段,而 D 作為警察也要盡可能地提高自己的業務水平防止被欺騙。所以,GAN 框架下的學習過程就變成了一種生成模型 (G) 和判別模型 (D) 之間的競爭過程 —— 隨機從真實樣本和由生成模型 (G) 生成出的 “假樣本” 中取一個,讓判別模型 (D) 去判斷是否為真。所以,體現在公式上,就是下面這樣一個 minmax 的形式。
然而,GAN 雖然不再需要預先建模,但這個優點同時也帶來了一些麻煩。那就是盡管它用一個 noise z 作為先驗,但生成模型如何利用這個 z,是無法控制的。也就是說,GAN 的學習模式太過于自由了,使得 GAN 的訓練過程和訓練結果很多時候都不太可控。為了穩定 GAN ,后來的研究者們分別從 heuristic 、 模型改進和理論分析的角度上提出了許多訓練技巧和改進方法。
比如在原始 GAN 論文 [1] 中,每次學習參數的更新過程,被設為 D 更新 k 回, G 才更新 1 回,就是出于減少 G 的 “自由度” 的考慮。
另一篇重量級的關于 GAN 訓練技巧的研究的工作便是 Deep Convolutional Generative Adversarial Networks(DCGAN)[6] 。[6] 中總結了許多對于 GAN 這的網絡結構設計和針對 CNN 這種網絡的訓練經驗。比如,他們用 strided convolutional networks 替代傳統 CNN 中的 pooling 層,從而將 GAN 中的生成模型 (G)變成了 fully differentiable 的,結果使得 GAN 的訓練更加穩定和可控。
為了提高訓練的穩定性,另一個很自然的角度就是改變學習方法。把純無監督的 GAN 變成半監督或者有監督的。這便可以為 GAN 的訓練加上一點點束縛,或者說加上一點點目標。[2] 中提出的 Conditional Generative Adversarial Nets (CGAN)便是十分直接的模型改變,在生成模型(G)和判別模型(D)的建模中均引入 conditional variable y,這個 y 就是數據的一種 label。也因此,CGAN 可以看做把無監督的 GAN 變成有監督的模型的一種改進。這個簡單直接的改進被證明非常有效,并廣泛用于后續的相關工作中。
第三種改進 GAN 過于自由的思路,和第一種會比較相似。既然太難控制 GAN 的學習,不如我們就拆解一下,不要讓 GAN 一次學完全部的數據,而是讓 GAN 一步步完成這個學習過程。具體到圖片生成來說就是,不要讓 GAN 中的生成模型(G)每次都直接生成一整張圖片,而是讓它生成圖片的一部分。這個思想可以認為是 DeepMind 也很有名的工作 DRAW 的一種變形。DRAW 的論文 [3] 開篇就說,我們人類在繪制一張圖片時,很少是一筆完成的。既然我們人類都不是這樣,為什么我們要寄希望于機器可以做到呢?論文 [4] 中提出的 LAPGAN 就是基于這個思想,將 GAN 的學習過程變成了 sequential “序列式” 的。 具體上,LAPGAN 采用了 Laplacian Pyramid 實現了 “序列化” ,也因此起名做 LAPGAN 。值得一提的是,這個 LAPGAN 中也有 “殘差” 學習的思想(與后來大火的 ResNet 也算是有一點關聯)。在學習序列中,LAPGAN 不斷地進行 downsample 和 upsample 操作,然后在每一個 Pyramid level 中,只將殘差傳遞給判別模型(D)進行判斷。這樣的 sequential + 殘差結合的方式,能有效減少 GAN 需要學習的內容和難度,從而達到了 “輔助” GAN 學習的目的。
另一個基于 sequential 思想去改進 GAN 的工作來自于 [5] 中的 GRAN。與 LAPGAN [4] 每一個 sequential step(Pyramid level)都是獨立訓練的不同的是,GRAN 把 GAN 和 LSTM 結合,讓 sequence 中的每一步學習和生成能充分利用上一步的結果。具體上來看,GRAN 的每一步都有一個像 LSTM 中的 cell,C_t,它決定了每一步生成的內容和結果;GRAN 中的 h_{c,t} 也如 LSTM 一樣,代表著 hidden states 。既然是結合 LSTM 和 GAN,那么說完了 LSTM 方面的引入,便是 GAN 方面的了。GRAN 將 GAN 中生成模型(G)的先驗也進行了建模,變成了 hidden of prior h_z;然后將 h_z 和 h_{c,t} 拼接(concatenate)之后傳遞給每一步的 C_t。
最后一種改進 GAN 的訓練穩定性的方式則更加貼近本質,也是的研究成果。這便是號稱 openAI 近期五大突破之一的 infoGAN [7] 。InfoGAN [7] 的出發點是,既然 GAN 的自由度是由于僅有一個 noise z,而無法控制 GAN 如何利用這個 z。那么我們就盡量去想辦法在 “如何利用 z” 上做文章。于是,[7] 中將 z 做了拆解,認為 GAN 中生成模型(G)應該包含的 “先驗” 分成兩種: (1)不能再做壓縮的 noise z;(2)和可解釋地、有隱含意義的一組隱變量 c_1, c_2, …, c_L,簡寫為 c 。這里面的思想主要是,當我們學習生成圖像時,圖像有許多可控的有含義的維度,比如筆劃的粗細、圖片的光照方向等等,這些便是 c ;而剩下的不知道怎么描述的便是 z 。這樣一來,[7] 實際上是希望通過拆解先驗的方式,讓 GAN 能學出更加 disentangled 的數據表示(representation),從而既能控制 GAN 的學習過程,又能使得學出來的結果更加具備可解釋性。為了引入這個 c ,[7] 利用了互信息的建模方式,即 c 應該和生成模型 (G)基于 z 和 c 生成的圖片,即 G ( z,c ),高度相關 —— 互信息大。利用這種更加細致的隱變量建??刂疲琲nfoGAN 可以說將 GAN 的發展又推動了一步。首先,它們證明了 infoGAN 中的 c 對于 GAN 的訓練是有確實的幫助的,即能使得生成模型(G)學出更符合真實數據的結果。其次,他們利用 c 的天然特性,控制 c 的維度,使得 infoGAN 能控制生成的圖片在某一個特定語義維度的變化。
然而實際上, infoGAN 并不是第一個將信息論的角度引入 GAN 框架的工作。這是因為,在 infoGAN 之前,還有一個叫做 f-GAN [8] 的工作。并且,GAN 本身也可以從信息論角度去解釋。如本文開篇所說,在原始 GAN 論文 [1] 中,作者是通過博弈論的角度解釋了 GAN 的思想。然而,GAN 的生成模型(G)產生的數據和真實數據就可以看做一顆硬幣的兩面。當拋硬幣拋到正面時,我們就將一個真實數據樣本展示給判別模型(D);反之,則展示由生成模型 (G)生成的“假”樣本。而 GAN 的理想狀態是,判別模型(D)對于硬幣的判斷幾乎等同于隨機,也就是生成模型(G)產生的數據完全符合真實數據。那么這時候,GAN 的訓練過程實際在做的就是最小化這顆硬幣和真實數據之間的互信息。互信息越小,判別模型(D)能從觀察中獲得的信息越少,也就越只能像 “隨機” 一樣猜結果。既然有了這樣一個從互信息角度的對于 GAN 的理解,那么是否能對 GAN 進行更進一步的改造呢?其實是可以的。比如可以把針對互信息的建模更進一步地泛化為基于 divergence 的優化目標。這方面的討論和改進可以見論文 [8],f-GAN 。
上面這些對于 GAN 的改進工作都幾乎是在短短一年半時間內完成的,尤其是近半年。這里面較大的原因就在于 GAN 相較于以前的 generative models,巧妙地將 “真假” 樣本轉換為一種隱性的 label,從而實現了一種 “無監督” 的生成式模型訓練框架。這種思想也可以從某種程度上看做 word2vec 中 Skip-Gram 的一種變形。未來,不僅僅是 GAN 的更多改進值得被期待,無監督學習和生成式模型的發展也同樣值得關注。
References:
1.《Generative Adversarial Nets》
2.《Conditional Generative Adversarial Nets》
3.《DRAW: A Recurrent Neural Network For Image Generation》
4.《Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks》
5.《Generating Images with Recurrent Adversarial Networks》
6.《Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks》
7.《InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets》
8.《f-GAN: Training Generative Neural Samplers using Variational Divergence Minimization》
歡迎加入本站公開興趣群商業智能與數據分析群
興趣范圍包括各種讓數據產生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數據倉庫,數據挖掘工具,報表系統等全方位知識
QQ群:81035754
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/4380.html
摘要:引用格式王坤峰,茍超,段艷杰,林懿倫,鄭心湖,王飛躍生成對抗網絡的研究與展望自動化學報,論文作者王坤峰,茍超,段艷杰,林懿倫,鄭心湖,王飛躍摘要生成式對抗網絡目前已經成為人工智能學界一個熱門的研究方向。本文概括了的研究進展并進行展望。 3月27日的新智元 2017 年技術峰會上,王飛躍教授作為特邀嘉賓將參加本次峰會的 Panel 環節,就如何看待中國 AI學術界論文數量多,但大師級人物少的現...
摘要:我們將這些現象籠統稱為廣義的模式崩潰問題。這給出了模式崩潰的直接解釋。而傳統深度神經網絡只能逼近連續映射,這一矛盾造成了模式崩潰。 春節前夕,北美遭遇極端天氣,在酷寒中筆者來到哈佛大學探望丘成桐先生。新春佳節,本是普天同慶的日子,但對于孤懸海外的游子而言,卻是更為凄涼難耐。遠離父母親朋,遠離故國家園,自然環境寒風凜冽,飛雪漫天,社會環境疏離淡漠,冷清寂寥。在波士頓見到導師和朋友,倍感欣慰。筆...
摘要:判別器勝利的條件則是很好地將真實圖像自編碼,以及很差地辨識生成的圖像。 先看一張圖:下圖左右兩端的兩欄是真實的圖像,其余的是計算機生成的。過渡自然,效果驚人。這是谷歌本周在 arXiv 發表的論文《BEGAN:邊界均衡生成對抗網絡》得到的結果。這項工作針對 GAN 訓練難、控制生成樣本多樣性難、平衡鑒別器和生成器收斂難等問題,提出了改善。尤其值得注意的,是作者使用了很簡單的結構,經過常規訓練...
摘要:近日,谷歌大腦發布了一篇全面梳理的論文,該研究從損失函數對抗架構正則化歸一化和度量方法等幾大方向整理生成對抗網絡的特性與變體。他們首先定義了全景圖損失函數歸一化和正則化方案,以及最常用架構的集合。 近日,谷歌大腦發布了一篇全面梳理 GAN 的論文,該研究從損失函數、對抗架構、正則化、歸一化和度量方法等幾大方向整理生成對抗網絡的特性與變體。作者們復現了當前較佳的模型并公平地對比與探索 GAN ...
閱讀 3209·2023-04-26 02:27
閱讀 2138·2021-11-22 14:44
閱讀 4082·2021-10-22 09:54
閱讀 3195·2021-10-14 09:43
閱讀 748·2021-09-23 11:53
閱讀 12675·2021-09-22 15:33
閱讀 2704·2019-08-30 15:54
閱讀 2681·2019-08-30 14:04