国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

深度學習為何起作用——關鍵解析和鞍點

JeOam / 778人閱讀

摘要:局部最小存在,但是對于目標函數而言,它非常接近全局最小,理論研究結果表明,一些大函數可能集中于指標臨界點和目標函數之間。

“為了局部泛化,我們需要所有相關變化的典型范例?!?/p>

深度學習是學習多層次的表示,相當于是多層次的抽象。如果我們能夠學習這些多層次的表示,那么我們可以很好地對其泛化。

在上述(釋義)總領全文陳述之后,作者提出了一些不同的人工智能(AI)策略,從以規則為基礎的系統到深度學習系統,并指出在哪個層次它們的組件能夠起作用。之后,他給出了從機器學習(ML)向真正人工智能遷移的3個關鍵點:大量數據,非常靈活的模型,強大的先驗,而且,因為經典ML可以處理前兩個關鍵點,所以他的博客是關于如果處理第三個關鍵點的。

在從如今的機器學習系統邁向人工智能的道路上,我們需要學習,泛化,避免維度災難的方法,以及解決潛在解釋因素的能力。在解釋為什么非參數學習算法不能實現真正的人工智能之前,他首先對非參數下了詳細的定義。他解釋了為什么以平滑作為經典的非參數方法在高維度下不起作用,之后對維度做了如下解釋:

“如果我們在數學上更深入地挖掘,我們學習到的是函數變種的數量,而不是維度的數量。在這種情況下,平滑度就是曲線中有多少上升和下降?!?/p>

“一條直線是非常平滑的。一條有升有降的曲線沒那么平滑,但還是平滑的?!?/p>

所以,很顯然,多帶帶使用平滑度并不能避免維度災難。事實上,平滑度甚至不適用與現代的,復雜的問題,比如計算機視覺和自然語言處理。在討論完這種有競爭力的方法(如高斯核)的失敗后,Boney將目光從平滑度上轉移,并解釋了它的必要性:

“我們想要達到非參數,在這個意義上,我們希望隨著數據的增多所有函數能靈活地擴展。在神經網絡中,我們根據數據量來改變隱藏單元的個數?!?/p>

他指出,在深度學習之中,使用了2個先驗,即分布式表示和深度架構。

為什么使用分布式表示?

“使用分布式表示,可以用線性參數來表示指數數量的區域。分布式表示的奇妙之處在于可以使用較少的實例來學習非常復雜的函數(有很多上升和下降的曲線)?!?/p>

在分布式表示中,特征的意義是多帶帶而言的,無論其他特征如何都不會改變。它們之間或許會有些互動,但是大多特征都是獨立于其他特征學習得到的。Boney指出,神經網絡非常善于學習表示來捕捉語義方面的東西,它們的泛化能力來源自這些表示。作為本主題的應用實例,他推薦Cristopher Olah的文章,來獲取關于分布式表示和自然語言處理的知識。

對于深度的含義有許多誤解

“更深的網絡并不意味著有更高的生產力。更深并不意味著我們能表示更多的函數。如果我們正在嘗試學習的函數有特定的特征,這些特征由許多操作的部分組成,那么使用深度神經網絡來逼近這些函數可以得到更好的效果?!?/p>

之后Boney又回到原話題。他解釋說,90年代后期神經網絡研究被擱置(再次)的一個原因是優化問題是非凸的。80和90年代的工作成果中,神經網絡在局部最小化中得到了一個指數值,同時還有內核機器的誕生,導致了神經網絡的衰敗,網絡可能會由于不好的解決方案而失效。最近,我們有證據證明非凸問題可能不是個問題,這改變了它與神經網絡的關系。

“上圖展示了一個鞍點。在全局或局部最小區域,所有方向都上升,在全局或局部較大區域,所有方向都下降?!?/p>

鞍點

“我們來考慮低維度和高維度下的優化問題。在低維度中,確實存在許多局部最小。但是在高維度情況下,局部最小并不是臨界點,也就是對全局來說不是關鍵點。當我們優化神經網絡或任何高維度函數的時候,對于我們大多數優化的軌跡,臨界點(點的導數是0或接近0)都是鞍點。鞍點,不像局部最小,很容易退避?!?/p>

關于鞍點的直覺是,對于靠近全局最小的局部最小,所有方向都應該是上升的;進一步下降可能性極小。局部最小存在,但是對于目標函數而言,它非常接近全局最小,理論研究結果表明,一些大函數可能集中于指標(臨界點)和目標函數之間。指標相當于是各個方向上,下降的方向占所有方向的比例;如果指標不是0或1(分別是局部最小和局部較大)的,那么它是一個鞍點。

Boney繼續說道,已經有經驗可以驗證指標和目標函數之間的關系,而沒有任何證據表明神經網絡優化可以得到這些結果,一些證據表明,所觀察到的行為可能只是理論結果。在實踐中,隨機梯度下降幾乎總是避開不是局部最小的表面。

這一切都表明,事實上因為鞍點的存在,局部最小可能不是問題。

Boney繼續他關于鞍點的討論,提出了一些與深度分布式表示工作的其他先驗;類人學習(human learning),半監督學習,多任務學習。然后他列出了一些關于鞍點的論文。

Rinu Boney寫了篇文章詳細闡述深度學習的驅動力,包括對鞍點的討論,所有的這些都很難通過簡單的引用和總結來公正說明。如果想對以上討論點進行更深的討論,訪問Boney的博客,自己讀讀這些具有洞察力和良好構思的文章吧。

關于譯者: 劉翔宇,中通軟開發工程師,關注機器學習、神經網絡、模式識別。

歡迎加入本站公開興趣群

商業智能與數據分析群

興趣范圍包括各種讓數據產生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數據倉庫,數據挖掘工具,報表系統等全方位知識

QQ群:81035754

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/4350.html

相關文章

  • 【DL-CV】更高級的參數更新/優化(一)

    摘要:對所有參數更新時應用同樣的學習率梯度由許多偏導數組成,對應著各個參數的更新。對于偏導數大的,我們希望配個小的學習率給他對于偏導數小的,我們希望配個大的學習率給他,這樣各個參數都能獲得大致相同的更新幅度,提高網絡的健壯性。 后續【DL-CV】更高級的參數更新/優化(二) 【DL-CV】正則化,Dropout【DL-CV】淺談GoogLeNet(咕咕net) 原版SGD的問題 原味版的S...

    tinyq 評論0 收藏0
  • GANs正在多個層面有所突破

    摘要:我認為在大多數深度學習中,算法層面上隨機梯度的下降是大家所認可的。但目前似乎存在兩個問題計算層面納什平衡達不到可能會退化。 去年我一直在研究如何更好地調整GANs中的不足,但因為之前的研究方向只關注了損失函數,完全忽略了如何尋找極小值問題。直到我看到了這篇論文才有所改變:詳解論文: The Numerics of GANs我參考了Mar的三層分析,并在計算層面上仔細考慮了這個問題:我們這樣做...

    raoyi 評論0 收藏0
  • 從圖像到知識:深度神經網絡實現圖像理解的原理解析

    摘要:本文將詳細解析深度神經網絡識別圖形圖像的基本原理。卷積神經網絡與圖像理解卷積神經網絡通常被用來張量形式的輸入,例如一張彩色圖象對應三個二維矩陣,分別表示在三個顏色通道的像素強度。 本文將詳細解析深度神經網絡識別圖形圖像的基本原理。針對卷積神經網絡,本文將詳細探討網絡 中每一層在圖像識別中的原理和作用,例如卷積層(convolutional layer),采樣層(pooling layer),...

    UnixAgain 評論0 收藏0

發表評論

0條評論

最新活動
閱讀需要支付1元查看
<