摘要:引用格式王坤峰,茍超,段艷杰,林懿倫,鄭心湖,王飛躍生成對抗網絡的研究與展望自動化學報,論文作者王坤峰,茍超,段艷杰,林懿倫,鄭心湖,王飛躍摘要生成式對抗網絡目前已經成為人工智能學界一個熱門的研究方向。本文概括了的研究進展并進行展望。
3月27日的新智元 2017 年技術峰會上,王飛躍教授作為特邀嘉賓將參加本次峰會的 Panel 環節,就如何看待中國 AI學術界論文數量多,但大師級人物少的現狀?人工智能被首次寫入中國政府工作報告,但中國的AI開源生態還剛剛萌芽,在全球尚處邊緣化地位,如何打造中國AI的主流生態等議題進行討論。關于GAN 與平行智能的關系,你可以來現場問問他。
本文2017年3月發表在《自動化學報》(第43卷,第三期)。
引用格式 王坤峰 ,茍超 ,段艷杰 ,林懿倫 ,鄭心湖,王飛躍 . 生成對抗網絡GAN的研究與展望. 自動化學報, 2017,43(3): 321-332
DOI ?10.16383/j.aas.2017.y000003
論文作者:王坤峰 ,茍超 ,段艷杰 ,林懿倫 ,鄭心湖,王飛躍?
【摘要】 生成式對抗網絡 GAN (Generative adversarial networks) 目前已經成為人工智能學界一個熱門的研究方向。 GAN的基本思想源自博弈論的二人零和博弈, 由一個生成器和一個判別器構成, 通過對抗學習的方式來訓練。目的是估測數據樣本 的潛在分布并生成新的數據樣本。在圖像和視覺計算、語音和語言處理、信息安全、棋類比賽等領域, GAN 正在被廣泛研究,具有巨大的應用前景。本文概括了 GAN 的研究進展, 并進行展望。在總結了 GAN 的背景、理論與實現模型、應用領域、優缺點及發展趨勢之后, 本文還討論了 GAN 與平行智能的關系, 認為 GAN 可以深化平行系統的虛實互動、交互一體的理念, 特別是計算實驗的思想, 為 ACP (Artificial societies, computational experiments, and parallel execution) 理論提供了十分具體和豐富的算法支持。
關鍵詞 ?生成式對抗網絡,生成式模型,零和博弈,對抗學習,平行智能,ACP 方法
生成式對抗網絡 GAN (Generative adversarial networks) 是 Goodfellow 等[1] 在 2014 年提出的一種生成式模型. GAN 在結構上受博弈論中的二人零和博弈 (即二人的利益之和為零, 一方的所得正是另一方的所失) 的啟發, 系統由一個生成器和一個判別器構成。生成器捕捉真實數據樣本的潛在分布, 并生成新的數據樣本; 判別器是一個二分類器, 判別輸入是真實數據還是生成的樣本. 生成器和判別器均[2]可以采用目前研究火熱的深度神經網絡. GAN 的優化過程是一個極小極大博弈 (Minimax game) 問 題, 優化目標是達到納什均衡[3] , 使生成器估測到數據樣本的分布。
在當前的人工智能熱潮下, GAN 的提出滿足了 許多領域的研究和應用需求, 同時為這些領域注入了新的發展動力. GAN 已經成為人工智能學界一個熱門的研究方向, 著名學者 LeCun 甚至將其稱為“過去十年間機器學習領域最讓人激動的點子”. 目前, 圖像和視覺領域是對 GAN 研究和應用最廣泛的一個領域, 已經可以生成數字、人臉等物體對象,構成各種逼真的室內外場景, 從分割圖像恢復原圖 像, 給黑白圖像上色, 從物體輪廓恢復物體圖像, 從 低分辨率圖像生成高分辨率圖像等[4]. 此外, GAN已經開始被應用到語音和語言處理[5?6]、電腦病毒 監測[7]、棋類比賽程序[8] 等問題的研究中。
本文綜述了生成式對抗網絡 GAN 的研究 進展, 并對發展趨勢進行展望. 第 1 節介紹 GAN 的 提出背景. 第 2 節描述 GAN 的理論與實現模型, 包 括 GNN 的基本原理、學習方法、衍生模型等. 第 3節列舉GAN在圖像和視覺、語音和語言、信息安全 等領域的典型應用. 第4節對 GAN 進行思考與展 望, 討論 GAN 與平行智能, 特別是與計算實驗的關 系. 最后, 第 5 節對本文進行總結。
1. GAN 的提出背景
本節介紹 GAN 的提出背景, 以便讀者更好地理解 GAN 的研究進展和應用領域.
1.1 人工智能的熱潮
近年來, 隨著計算能力的提高和各行業數據量 的劇增, 人工智能取得了快速發展, 使得研究者對人 工智能的關注度和社會大眾對人工智能的憧憬空前提升[2,9]. 學術界普遍認為人工智能分為兩個階段:感知階段和認知階段. 在感知階段, 機器能夠接收來 自外界的各種信號, 例如視覺信號、聽覺信號等, 并 對此作出判斷, 對應的研究領域有圖像識別、語音識別等. 在認知階段, 機器能夠對世界的本質有一定的 理解, 不再是單純、機械地做出判斷。基于多年的研 究經驗, 本文作者認為人工智能的表現層次包括判 斷、生成、理解和創造及應用, 如圖 1 所示. 一方面,這些層次相互聯系相互促進; 另一方面, 各個層次之間又有很大的鴻溝, 有待新的研究突破.
無論是普遍認為的人工智能兩階段還是本文作者總結的人工智能四個層次, 其中都涉及理解這個 環節. 然而, 理解無論對人類還是人工智能都是內 在的表現, 無法直接測量, 只能間接從其他方面推 測. 如何衡量人工智能的理解程度, 雖然沒有定論但是著名學者 Feynman 有句名言 “What I cannot create, I do not understand. (不可造者, 未能知也.)” 這說明機器制造事物的能力從某種程度上取 決于機器對事物的理解. 而 GAN 作為典型的生成 式模型, 其生成器具有生成數據樣本的能力. 這種 能力在一定程度上反映了它對事物的理解. 因此, GAN 有望加深人工智能的理解層面的研究.
1.2 生成式模型的積累
生成式模型不僅在人工智能領域占有重要地位,生成方法本身也具有很大的研究價值. 生成方法和 判別方法是機器學習中監督學習方法的兩個分支.生成式模型是生成方法學習得到的模型. 生成方法 涉及對數據的分布假設和分布參數學習, 并能夠根 據學習而來的模型采樣出新的樣本. 本文認為生成 式模型從研究出發點的角度可以分為兩類: 人類理 解數據的角度和機器理解數據的角度.
從人類理解數據的角度出發, 典型的做法是先 對數據的顯式變量或者隱含變量進行分布假設, 然 后利用真實數據對分布的參數或包含分布的模型進 行擬合或訓練, 最后利用學習到的分布或模型生成 新的樣本. 這類生成式模型涉及的主要方法有較大 似然估計法、近似法[10?11]、馬爾科夫鏈方法[12?14]等. 從這個角度學習到的模型具有人類能夠理解的 分布, 但是對機器學習來說具有不同的限制. 例如,以真實樣本進行較大似然估計, 參數更新直接來自 于數據樣本, 導致學習到的生成式模型受到限制. 而 采用近似法學習到的生成式模型由于目標函數難解 一般只能在學習過程中逼近目標函數的下界, 并不 是直接對目標函數的逼近. 馬爾科夫鏈方法既可以 用于生成式模型的訓練又可以用于新樣本的生成,但是馬爾科夫鏈的計算復雜度較高.?
從機器理解數據的角度出發, 建立的生成式模 型一般不直接估計或擬合分布, 而是從未明確假設 的分布中獲取采樣的數據[15], 通過這些數據對模型 進行修正. 這樣得到的生成式模型對人類來說缺乏可解釋性, 但是生成的樣本卻是人類可以理解的. 以 此推測, 機器以人類無法顯式理解的方式理解了數 據并且生成了人類能夠理解的新數據. 在 GAN 提 出之前, 這種從機器理解數據的角度建立的生成式 模型一般需要使用馬爾科夫鏈進行模型訓練, 效率 較低, 一定程度上限制了其系統應用.
GAN 提出之前, 生成式模型已經有一定研究積 累, 模型訓練過程和生成數據過程中的局限無疑是 生成式模型的障礙. 要真正實現人工智能的四個層 次, 就需要設計新的生成式模型來突破已有的障礙.?
1.3 神經網絡的深化
過去 10 年來, 隨著深度學習[16?17] 技術在各個 領域取得巨大成功, 神經網絡研究再度崛起. 神經網 絡作為深度學習的模型結構, 得益于計算能力的提 升和數據量的增大, 一定程度上解決了自身參數多、 訓練難的問題, 被廣泛應用于解決各類問題中. 例 如, 深度學習技術在圖像分類問題上取得了突破性 的效果[18?19], 顯著提高了語音識別的準確率[20], 又 被成功應用于自然語言理解領域[21] . 神經網絡取得 的成功和模型自身的特點是密不可分的. 在訓練方 面, 神經網絡能夠采用通用的反向傳播算法, 訓練過 程容易實現; 在結構方面, 神經網絡的結構設計自由 靈活, 局限性小; 在建模能力方面, 神經網絡理論上 能夠逼近任意函數, 應用范圍廣. 另外, 計算能力的 提升使得神經網絡能夠更快地訓練更多的參數, 進 一步推動了神經網絡的流行.?
1.4 對抗思想的成功
從機器學習到人工智能, 對抗思想被成功引入 若干領域并發揮作用. 博弈、競爭中均包含著對抗 的思想. 博弈機器學習[22] 將博弈論的思想與機器學 習結合, 對人的動態策略以博弈論的方法進行建模,優化廣告競價機制, 并在實驗中證明了該方法的有 效性. 圍棋程序 AlphaGo[23] 戰勝人類選手引起大眾對人工智能的興趣, 而 AlphaGo 的中級版本在訓 練策略網絡的過程中就采取了兩個網絡左右互博的方式,獲得棋局狀態、策略和對應回報,并以包含博 弈回報的期望函數作為較大化目標. 在神經網絡的研究中, 曾有研究者利用兩個神經網絡互相競爭的 方式對網絡進行訓練[24] , 鼓勵網絡的隱層節點之間 在統計上獨立, 將此作為訓練過程中的正則因素. 還 有研究者[25?26] 采用對抗思想來訓練領域適應的神 經網絡: 特征生成器將源領域數據和目標領域數據 變換為高層抽象特征, 盡可能使特征的產生領域難 以判別; 領域判別器基于變換后的特征, 盡可能準確 地判別特征的領域. 對抗樣本[27?28] 也包含著對抗 的思想, 指的是那些和真實樣本差別甚微卻被誤分 類的樣本或者差異很大卻被以很高置信度分為某一真實類的樣本, 反映了神經網絡的一種詭異行為特 性. 對抗樣本和對抗網絡雖然都包含著對抗的思想,但是目的完全不同. 對抗思想應用于機器學習或人 工智能取得的諸多成果, 也激發了更多的研究者對GAN 的不斷挖掘。
2. GAN的理論與實現模型
2.1 GAN 的理論與實現模型GAN 的基本原理
GAN 的核心思想來源于博弈論的納什均衡. 它 設定參與游戲雙方分別為一個生成器 (Generator)和一個判別器 (Discriminator), 生成器的目的是盡 量去學習真實的數據分布, 而判別器的目的是盡量 正確判別輸入數據是來自真實數據還是來自生成器;為了取得游戲勝利, 這兩個游戲參與者需要不斷優 化, 各自提高自己的生成能力和判別能力, 這個學習 優化過程就是尋找二者之間的一個納什均衡. GAN的計算流程與結構如圖 2 所示. 任意可微分的函 數都可以用來表示 GAN 的生成器和判別器, 由此,我們用可微分函數 D 和 G 來分別表示判別器和生 成器, 它們的輸入分別為真實數據 x 和隨機變量 z.G(z) 則為由 G 生成的盡量服從真實數據分布 pdata的樣本. 如果判別器的輸入來自真實數據, 標注為 1.如果輸入樣本為 G(z), 標注為 0. 這里 D 的目標是 實現對數據來源的二分類判別: 真 (來源于真實數據x 的分布) 或者偽 (來源于生成器的偽數據 G(z)),而 G 的目標是使自己生成的偽數據 G(z) 在 D 上 的表現D(G(z))和真實數據x在D上的表現D(x)一致, 這兩個相互對抗并迭代優化的過程使得 D 和 G 的性能不斷提升, 當最終 D 的判別能力提升到一 定程度, 并且無法正確判別數據來源時, 可以認為這 個生成器 G 已經學到了真實數據的分布.
2.2 GAN 的學習方法
本節中我們討論 GAN 的學習訓練機制。
首先,在給定生成器 G 的情況下, 我們考慮最 優化判別器 D. 和一般基于 Sigmoid 的二分類模型 訓練一樣, 訓練判別器 D 也是最小化交叉熵的過程,其損失函數為:
其中, x 采樣于真實數據分布 pdata(x), z 采樣于先 驗分布 pz (z) (例如高斯噪聲分布), E(·) 表示計算期 望值. 這里實際訓練時和常規二值分類模型不同, 判 別器的訓練數據集來源于真實數據集分布 pdata(x) (標注為 1) 和生成器的數據分布 pg (x) (標注為 0)兩部分. 給定生成器 G, 我們需要最小化式 (1) 來得 到最優解, 在連續空間上, 式 (1) 可以寫為如下形式:?
對任意的非零實數 m 和 n, 且實數值 y ∈ [0, 1] ,表達式?
在處得到最小值。因此, 給定生成器 G 的情 況下, 目標函數 (2) 在?
處得到最小值, 此即為判別器的最優解. 由式 (4) 可 知, GAN 估計的是兩個概率分布密度的比值, 這也 是和其他基于下界優化或者馬爾科夫鏈方法的關鍵 不同之處。
另一方面, D(x) 代表的是 x 來源于真實數據 而非生成數據的概率. 當輸入數據采樣自真實數據x 時, D 的目標是使得輸出概率值 D(x) 趨近于 1, 而當輸入來自生成數據 G(z) 時, D 的目標是正確 判斷數據來源, 使得 D(G(z)) 趨近于 0, 同時 G 的 目標是使得其趨近于 1. 這實際上就是一個關于G 和 D 的零和游戲, 那么生成器 G 的損失函數為ObjG(θG) = ?ObjD(θD, θG). 所以 GAN 的優化問 題是一個極小—極大化問題, GAN 的目標函數可 以描述如下:?
總之, 對于 GAN 的學習過程, 我們需要訓練模 型 D 來較大化判別數據來源于真實數據或者偽數 據分布 G(z) 的準確率, 同時, 我們需要訓練模型 G來最小化 log(1 ? D(G(z))). 這里可以采用交替優 化的方法: 先固定生成器 G, 優化判別器 D, 使得D 的判別準確率較大化; 然后固定判別器 D, 優化 生成器 G, 使得 D 的判別準確率最小化. 當且僅當pdata = pg 時達到全局最優解. 訓練 GAN 時, 同一 輪參數更新中, 一般對 D 的參數更新 k 次再對 G的參數更新 1 次。
2.3 GAN 的衍生模型
自 Goodfellow 等[1] 于 2014 年提出 GAN 以來,各種基于 GAN 的衍生模型被提出, 這些模型的創 新點包括模型結構改進、理論擴展及應用等. 部分 衍生模型的計算流程與結構如圖 3 所示。
GAN 在基于梯度下降訓練時存在梯度消失的 問題, 因為當真實樣本和生成樣本之間具有極小重 疊甚至沒有重疊時, 其目標函數的 Jensen-Shannon散度是一個常數, 導致優化目標不連續. 為了解決 訓練梯度消失問題, Arjovsky 等[29] 提出了 Wasser- stein GAN (W-GAN). W-GAN 用 Earth-Mover 代 替 Jensen-Shannon 散度來度量真實樣本和生成樣 本分布之間的距離, 用一個批評函數 f 來對應 GAN的判別器, 而且批評函數 f 需要建立在 Lipschitz 連 續性假設上. 另外, GAN 的判別器 D 具有無限的 建模能力, 無論真實樣本和生成的樣本有多復雜, 判 別器 D 都能把它們區分開, 這容易導致過擬合問題。
為了限制模型的建模能力, Qi[30] 提出了 Loss- sensitive GAN (LS-GAN), 將最小化目標函數得到 的損失函數限定在滿足 Lipschitz 連續性函數類上,作者還給出了梯度消失時的定量分析結果. 需要指 出, W-GAN 和 LS-GAN 并沒有改變 GAN 模型的 結構, 只是在優化方法上進行了改進。GAN 的訓練只需要數據源的標注信息 (真或 偽), 并根據判別器輸出來優化. Odena[31] 提出了 Semi-GAN, 將真實數據的標注信息加入判別器 D的訓練. 更進一步, Conditional GAN (CGAN)[32]提出加入額外的信息 y 到 G、D 和真實數據來建模,這里的 y 可以是標簽或其他輔助信息. 傳統 GAN都是學習一個生成式模型來把隱變量分布映射到復雜真實數據分布上, Donahue 等[33] 提出一種 Bidi- rectional GANs (BiGANs) 來實現將復雜數據映射 到隱變量空間, 從而實現特征學習. 除了 GAN 的基 本框架, BiGANs 額外加入了一個解碼器 Q 用于將 真實數據 x 映射到隱變量空間, 其優化問題轉換為.
InfoGAN[34] 是 GAN 的另一個重要擴展. GAN能夠學得有效的語義特征, 但是輸入噪聲變量 z 的 特定變量維數和特定語義之間的關系不明確, 而 In- foGAN 能夠獲取輸入的隱層變量和具體語義之間 的互信息. 具體實現就是把生成器 G 的輸入分為 兩部分z 和c, 這里z 和GAN 的輸入一致, 而c被稱為隱碼, 這個隱碼用于表征結構化隱層隨機變 量和具體特定語義之間的隱含關系. GAN 設定了pG(x) = pG(x|c), 而實際上 c 與 G 的輸出具有較強 的相關性. 用 G(z, c) 來表示生成器的輸出, 作者[34]提出利用互信息 I(c; G(z, c)) 來表征兩個數據的相 關程度, 用目標函數?
來建模求解, 這里由于后驗概率 p(c|x) 不能直接獲 取, 需要引入變分分布來近似后驗的下界來求得最優解。
Odena 等[35] 提出的 Auxiliary Classifier GAN (AC-GAN) 可以實現多分類問題, 它的判別器輸出 相應的標簽概率. 在實際訓練中, 目標函數則包含真 實數據來源的似然和正確分類標簽的似然, 不再單 獨由判別器二分類損失來反傳調節參數, 可以進一 步調節損失函數使得分類正確率更高, AC-GAN 的 關鍵是可以利用輸入生成器的標注信息來生成對應 的圖像標簽, 同時還可以在判別器擴展調節損失函 數, 從而進一步提高對抗網絡的生成和判別能力.
考慮到 GAN 的輸出為連續實數分布而無法產 生離散空間的分布, Yu 等[6] 提出了一種能夠生成離 散序列的生成式模型 Seq-GAN. 他們用 RNN 實現 生成器G, 用CNN 實現判別器D, 用D 的輸出判 別概率通過增強學習來更新 G. 增強學習中的獎勵 通過 D 來計算, 對于后面可能的行為采用了蒙特卡 洛搜索實現, 計算 D 的輸出平均作為獎勵值反饋.?
3. GAN 的應用領域
作為一個具有 “無限” 生成能力的模型, GAN的直接應用就是建模, 生成與真實數據分布一致的 數據樣本, 例如可以生成圖像、視頻等. GAN 可以 用于解決標注數據不足時的學習問題, 例如無監督 學習、半監督學習等. GAN 還可以用于語音和語言 處理, 例如生成對話、由文本生成圖像等. 本節從圖 像和視覺、語音和語言、其他領域三個方面來闡述GAN 的應用.?
3.1 圖像和視覺領域
GAN 能夠生成與真實數據分布一致的圖像. 一 個典型應用來自 Twitter 公司, Ledig 等[36] 提出利 用 GAN 來將一個低清模糊圖像變換為具有豐富細 節的高清圖像. 作者用 VGG 網絡[37] 作為判別器,用參數化的殘差網絡[19] 表示生成器, 實驗結果如圖4 所示, 可以看到 GAN 生成了細節豐富的圖像.?
GAN 也開始用于生成自動駕駛場景. Santana等[38] 提出利用 GAN 來生成與實際交通場景分布一 致的圖像, 再訓練一個基于 RNN 的轉移模型實現預 測的目的, 實驗結果如圖 5 所示. GAN 可以用于自 動駕駛中的半監督學習或無監督學習任務, 還可以 利用實際場景不斷更新的視頻幀來實時優化 GAN的生成器.
Gou 等[39?40] 提出利用仿真圖像和真實圖像作 為訓練樣本來實現人眼檢測, 但是這種仿真圖像與 真實圖像存在一定的分布差距. Shrivastava等[41]提出一種基于 GAN 的方法 (稱為 SimGAN), 利用 無標簽真實圖像來豐富細化仿真圖像, 使得合成圖 像更加真實. 作者引入一個自正則化項來實現最小 化合成誤差并較大程度保留仿真圖像的類別, 同時 利用加入的局部對抗損失函數來對每個局部圖像塊 進行判別, 使得局部信息更加豐富.?
3.2 語音和語言領域
目前已經有一些關于 GAN 的語音和語言處理 文章. Li 等[5] 提出用 GAN 來表征對話之間的隱式 關聯性, 從而生成對話文本. Zhang 等[42] 提出基于GAN 的文本生成, 他們用 CNN 作為判別器, 判別 器基于擬合 LSTM 的輸出, 用矩匹配來解決優化問 題; 在訓練時, 和傳統更新多次判別器參數再更新一 次生成器不同, 需要多次更新生成器再更新 CNN 判別器.基于策略梯度來訓練生成器G, 策略梯度的反饋獎勵信號來自于生成器經過蒙特卡 洛搜索得到, 實驗表明 SeqGAN 在語音、詩詞和音 樂生成方面可以超過傳統方法. Reed 等[43] 提出用GAN 基于文本描述來生成圖像, 文本編碼被作為生 成器的條件輸入, 同時為了利用文本編碼信息, 也將 其作為判別器特定層的額外信息輸入來改進判別器,判別是否滿足文本描述的準確率, 實驗結果表明生 成圖像和文本描述具有較高相關性.?
3.3 其他領域
除了將 GAN 應用于圖像和視覺、語音和語言 等領域, GAN 還可以與強化學習相結合, 例如前述 的 SeqGAN[6]. 還有研究者將 GAN 和模仿學習融 合[44?45] 、將 GAN 和 Actor-critic 方法結合[46] 等. Hu 等[7] 提出 MalGAN 幫助檢測惡意代碼, 用 GAN生成具有對抗性的病毒代碼樣本, 實驗結果表明基 于 GAN 的方法可以比傳統基于黑盒檢測模型的方 法性能更好. Childambaram 等[8] 基于風格轉換提 出了一個擴展 GAN 的生成器, 用判別器來正則化 生成器而不是用一個損失函數, 用國際象棋實驗示例證明了所提方法的有效性.?
4. GAN 的思考與展望
4.1 GAN 的思考與展望GAN 的意義和優點?
GAN 對于生成式模型的發展具有重要的意義. GAN 作為一種生成式方法, 有效解決了可建立自然 性解釋的數據的生成難題. 尤其對于生成高維數據,所采用的神經網絡結構不限制生成維度, 大大拓寬 了生成數據樣本的范圍. 所采用的神經網絡結構能 夠整合各類損失函數, 增加了設計的自由度. GAN的訓練過程創新性地將兩個神經網絡的對抗作為訓 練準則并且可以使用反向傳播進行訓練, 訓練過程 不需要效率較低的馬爾科夫鏈方法, 也不需要做各 種近似推理, 沒有復雜的變分下界, 大大改善了生成 式模型的訓練難度和訓練效率. GAN 的生成過程不 需要繁瑣的采樣序列, 可以直接進行新樣本的采樣 和推斷, 提高了新樣本的生成效率. 對抗訓練方法摒 棄了直接對真實數據的復制或平均, 增加了生成樣 本的多樣性. GAN 在生成樣本的實踐中, 生成的樣 本易于人類理解. 例如, 能夠生成十分銳利清晰的圖像, 為創造性地生成對人類有意義的數據提供了可 能的解決方法.
GAN 除了對生成式模型的貢獻, 對于半監督學 習也有啟發. GAN 學習過程中不需要數據標簽. 雖 然 GAN 提出的目的不是半監督學習, 但是 GAN 的 訓練過程可以用來實施半監督學習中無標簽數據對 模型的預訓練過程. 具體來說, 先利用無標簽數據訓 練 GAN, 基于訓練好的 GAN 對數據的理解, 再利 用小部分有標簽數據訓練判別器, 用于傳統的分類 和回歸任務.?
4.2 GAN 的缺陷和發展趨勢
GAN 雖然解決了生成式模型的一些問題, 并且 對其他方法的發展具有一定的啟發意義, 但是 GAN并不完美, 它在解決已有問題的同時也引入了一些 新的問題. GAN 最突出的優點同時也是它較大的 問題根源. GAN 采用對抗學習的準則, 理論上還 不能判斷模型的收斂性和均衡點的存在性. 訓練過 程需要保證兩個對抗網絡的平衡和同步, 否則難以 得到很好的訓練效果. 而實際過程中兩個對抗網絡 的同步不易把控, 訓練過程可能不穩定. 另外, 作 為以神經網絡為基礎的生成式模型, GAN 存在神 經網絡類模型的一般性缺陷, 即可解釋性差. 另外, GAN 生成的樣本雖然具有多樣性, 但是存在崩潰模 式 (Collapse mode) 現象[4], 可能生成多樣的, 但對于人類來說差異不大的樣本.
雖然 GAN 存在這些問題, 但不可否認的是, GAN 的研究進展表明它具有廣闊的發展前景. 例 如, Wasserstein GAN[29] 徹底解決了訓練不穩定問 題, 同時基本解決了崩潰模式現象. 如何徹底解決崩 潰模式并繼續優化訓練過程是 GAN 的一個研究方 向. 另外, 關于 GAN 收斂性和均衡點存在性的理論 推斷也是未來的一個重要研究課題. 以上研究方向 是為了更好地解決 GAN 存在的缺陷. 從發展應用GAN 的角度, 如何根據簡單隨機的輸入, 生成多樣 的、能夠與人類交互的數據, 是近期的一個應用發展 方向. 從 GAN 與其他方法交叉融合的角度, 如何將GAN 與特征學習、模仿學習、強化學習等技術更好 地融合, 開發新的人工智能應用或者促進這些方法 的發展, 是很有意義的發展方向. 從長遠來看, 如何 利用 GAN 推動人工智能的發展與應用, 提升人工 智能理解世界的能力, 甚至激發人工智能的創造力 是值得研究者思考的問題.?
4.3 GAN 與平行智能的關系
王飛躍研究員[47?48] 于 2004 年提出了復雜系 統建模與調控的 ACP (Artificial societies, compu- tational experiments, and parallel execution) 理論 和平行系統方法. 平行系統強調虛實互動, 構建人工 系統來描述實際系統, 利用計算實驗來學習和評估 各種計算模型, 通過平行執行來提升實際系統的性 能, 使得人工系統和實際系統共同推進[49?50]. ACP理論和平行系統方法目前已經發展為更廣義的平行 智能理論[51]. GAN 訓練中真實的數據樣本和生成 的數據樣本通過對抗網絡互動, 并且訓練好的生成 器能夠生成比真實樣本更多的虛擬樣本. GAN 可以 深化平行系統的虛實互動、交互一體的理念. GAN作為一種有效的生成式模型, 可以融入到平行智能 研究體系. 本節從以下幾個方面討論 GAN 與平行 智能的關系.?
4.3.1 GAN 與平行視覺
平行視覺[52] 是 ACP 理論在視覺計算領域的推 廣, 其基本框架與體系結構如圖 6 所示. 平行視覺結 合計算機圖形學、虛擬現實、機器學習、知識自動化 等技術, 利用人工場景、計算實驗、平行執行等理論 和方法, 建立復雜環境下視覺感知與理解的理論和 方法體系. 平行視覺利用人工場景來模擬和表示復 雜挑戰的實際場景, 使采集和標注大規模多樣性數 據集成為可能, 通過計算實驗進行視覺算法的設計 與評估, 最后借助平行執行來在線優化視覺系統. 其 中產生虛擬的人工場景便可以采用 GAN 實現, 如 圖 5 所示. GAN 能夠生成大規模多樣性的圖像數 據集, 與真實數據集結合起來訓練視覺模型, 有助于 提高視覺模型的泛化能力.?
4.3.2 GAN與平行控制
平行控制[53?55] 是一種反饋控制, 是 ACP 理論 在復雜系統控制領域的具體應用, 其結構如圖 7 所 示. 平行控制核心是利用人工系統進行建模和表示,通過計算實驗進行分析和評估, 最后以平行執行實 現對復雜系統的控制. 除了人工系統的生成和計算 實驗的分析, 平行控制中的人工系統和實際系統平 行執行的過程也利用 GAN 進行模擬, 一方面可以 進行人工系統的預測學習和實際系統的反饋學習,另一方面可以進行控制單元的模擬學習和強化學習.
4.3.3 GAN 與平行學習?
平行學習[56] 是一種新的機器學習理論框架, 是ACP 理論在學習領域的體現, 其理論框架如圖 8 所 示. 平行學習理論框架強調: 使用預測學習解決如何 隨時間發展對數據進行探索; 使用集成學習解決如 何在空間分布上對數據進行探索; 使用指示學習解決如何探索數據生成的方向. 平行學習作為機器學 習的一個新型理論框架, 與平行視覺和平行控制關 系密切. GAN 在大數據生成、基于計算實驗的預測 學習等方面都可以和平行學習結合發展.?
結論
本文綜述了生成式對抗網絡 GAN 的研究進展. GAN 提出后, 立刻受到了人工智能研究者的重視. GAN 的基本思想源自博弈論的二人零和博弈, 由一個生成器和一個判別器構成, 通過對抗學習的方式 來迭代訓練, 逼近納什均衡. GAN 作為一種生成式 模型, 不直接估計數據樣本的分布, 而是通過模型學 習來估測其潛在分布并生成同分布的新樣本. 這種 從潛在分布生成 “無限” 新樣本的能力, 在圖像和視 覺計算、語音和語言處理、信息安全等領域具有重 大的應用價值.?
本文還展望了 GAN 的發展趨勢, 重點討論了GAN 與平行智能的關系, 認為 GAN 可以深化平行系統的虛實互動、交互一體的理念, 為 ACP 理論提 供具體和豐富的算法支持. 在平行視覺、平行控制、 平行學習等若干平行系統中, GAN 可以通過生成與 真實數據同分布的數據樣本, 來支持平行系統的理 論和應用研究. 因此, GAN 作為一種有效的生成式 模型, 可以融入到平行智能的研究體系.
Reference 詳見論文
作者介紹?
歡迎加入本站公開興趣群商業智能與數據分析群
興趣范圍包括各種讓數據產生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數據倉庫,數據挖掘工具,報表系統等全方位知識
QQ群:81035754
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/4486.html
摘要:作者在論文中將這種新的譜歸一化方法與其他歸一化技術,比如權重歸一化,權重削減等,和梯度懲罰等,做了比較,并通過實驗表明,在沒有批量歸一化權重衰減和判別器特征匹配的情況下,譜歸一化改善生成的圖像質量,效果比權重歸一化和梯度懲罰更好。 就在幾小時前,生成對抗網絡(GAN)的發明人Ian Goodfellow在Twitter上發文,激動地推薦了一篇論文:Goodfellow表示,雖然GAN十分擅長...
摘要:生成對抗網絡的各種變體非常多,的發明者在上推薦了這份名為的各種變體列表,這也表明現在確實非常火,被應用于各種各樣的任務。了解這些各種各樣的,或許能對你創造自己的有所啟發。這篇文章列舉了目前出現的各種變體,并將長期更新。 生成對抗網絡(GAN)的各種變體非常多,GAN 的發明者 Ian Goodfellow 在Twitter上推薦了這份名為The GAN Zoo的各種GAN變體列表,這也表明現...
摘要:的兩位研究者近日融合了兩種非對抗方法的優勢,并提出了一種名為的新方法。的缺陷讓研究者開始探索用非對抗式方案來訓練生成模型,和就是兩種這類方法。不幸的是,目前仍然在圖像生成方面顯著優于這些替代方法。 生成對抗網絡(GAN)在圖像生成方面已經得到了廣泛的應用,目前基本上是 GAN 一家獨大,其它如 VAE 和流模型等在應用上都有一些差距。盡管 wasserstein 距離極大地提升了 GAN 的...
摘要:很多人可能會問這個故事和生成式對抗網絡有什么關系其實,只要你能理解這段故事,就可以了解生成式對抗網絡的工作原理。 男:哎,你看我給你拍的好不好?女:這是什么鬼,你不能學學XXX的構圖嗎?男:哦……男:這次你看我拍的行不行?女:你看看你的后期,再看看YYY的后期吧,呵呵男:哦……男:這次好點了吧?女:呵呵,我看你這輩子是學不會攝影了……男:這次呢?女:嗯,我拿去當頭像了上面這段對話講述了一位男...
摘要:但年在機器學習的較高級大會上,蘋果團隊的負責人宣布,公司已經允許自己的研發人員對外公布論文成果。蘋果第一篇論文一經投放,便在年月日,斬獲較佳論文。這項技術由的和開發,使用了生成對抗網絡的機器學習方法。 GANs「對抗生成網絡之父」Ian Goodfellow 在 ICCV 2017 上的 tutorial 演講是聊他的代表作生成對抗網絡(GAN/Generative Adversarial ...
閱讀 2484·2023-04-25 19:24
閱讀 1700·2021-11-11 16:54
閱讀 2832·2021-11-08 13:19
閱讀 3547·2021-10-25 09:45
閱讀 2552·2021-09-13 10:24
閱讀 3276·2021-09-07 10:15
閱讀 4014·2021-09-07 10:14
閱讀 2950·2019-08-30 15:56