CapsNet日益火爆！Hinton大神橫掃AI界的「膠囊網絡」如何理解？

sorra 發布于2019-04-25 18:21 / 1095人閱讀

摘要：等人最近關于膠囊網絡的論文在機器學習領域造成相當震撼的影響。它提出了理論上能更好地替代卷積神經網絡的方案，是當前計算機視覺領域的技術。而這就是這些膠囊網絡運行方式的本質。為了簡化，我們將假設一個兩層的膠囊網絡。產生的結果值將被稱為。

Geoff Hinton等人最近關于膠囊網絡（Capsule networks）的論文在機器學習領域造成相當震撼的影響。它提出了理論上能更好地替代卷積神經網絡的方案，是當前計算機視覺領域的技術。

首先，我想談談神經網絡那些令人困惑的術語。機器學習中的許多想法來源于符號數字化的認知概念。為了演示，我們以神經元為例。在物質世界中，這是一組細胞，以信號作為輸入，并發出一些信號作為輸出，只要它足夠興奮。雖然這是一個簡單直白的解釋，但這最終是對“神經網絡”機器學習概念的充分體現。在這里，神經元是一個數學單位，它接受一個輸入，并使用一系列函數給出輸入的輸出。我們學習權重來確定在訓練階段哪個特定的輸入可能比使用反向傳播的輸入更重要。我們可以堆疊這些神經元，使得一層神經元的輸出成為另一層神經元的輸入。所有類型的神經元都取自從這個基本概念，包括遞歸神經網絡和卷積神經網絡。

現在讓我們來描述膠囊的概念。像基本的神經元一樣，它們也代表了一個認知思想的符號數字化。大腦的高層做了更多的演繹、理解和高層次特征的計算，大腦的特定部分在他們處理的領域或主題上有明確的含義。我們并不是將所有維度的數據都放在整個大腦中，而是“喂食（feed in）”較低級別的特征，以供大腦的高層部分處理，從而將認知負荷從較高級別的處理中移除。如果較低級別的功能與大腦某些較高級別的部分不相關，則不應將其發送到那里。它的信號至少應該有所減弱。

這些膠囊被設想為用以處理識別姿勢的問題。就是說，當一個模型原先是被訓練來對一只狗進行識別時，但卻變得依賴于視野內該狗所在的方向。如果將這只狗轉個方向，并試圖從不同的角度對其拍照，那么該模型在對狗進行識別時可能會遇到麻煩。為了解決這一問題，膠囊試圖通過讓“符號數學大腦（symbolic mathematical brain）”（即網絡）的更高級別部分來處理復雜特征的識別和姿勢認證，而較低級別部分用來處理“子”特征。一個較高級別的膠囊可以識別出一張臉部特征，而這是基于較低級別的膠囊是以一個相一致的方向來對嘴巴和鼻子進行識別的。

卷積神經網絡目前并不是這樣做的，相反，他它們依靠的是大量的數據，其中將該目標可能擁有的所有姿勢都包含在內，當然，它們也具有其他的缺點。

對于初學者來說，這是一個上下文的問題。信息有時需要在上下文中才能有效。Geoff Hinton自己遇到過這樣一個示例：一個四面體被切成兩半之后，即使是麻省理工學院的教授也很難將其恢復成原形。其實，很難確切地去弄明白這是為什么，但它似乎與我們的參考框架有關：我們選擇查看目標的方式可以決定我們對其進行操作和識別的方式。而膠囊網絡可以潛在地通過將該信息嵌入特定膠囊中來解決這個問題，而該特定膠囊對所涉及的上下文進行學習，然后將該信息饋送到網絡的更高部分。

其次，卷積神經網絡通過池化的方式將多個特征檢測器合并在一起。前層神經網絡作為特征饋入到后層中。人們認為，這些早期網絡充當的是特征檢測器，因為早期網絡識別的是非常基本的特征，而后續網絡可以識別耳朵、眼睛等器官特征。通過將它們池化在一起，可以解決方差問題，即就模型而言，圖片中左手邊的耳朵可能與右手邊的耳朵不是一樣的。

盡管如此，池化的結果也是非常不穩定的，它使得信息分布在許多個而不是少數幾個神經元中。因此，每個神經元必須更努力地運行。如果我們能夠對神經元進行特定化以便處理特定的識別，那結果將會好很多。我們可以有一個專門用來尋找鼻子的膠囊，一個專門用來尋找嘴巴的膠囊。這樣的話，這些膠囊可以很好地對那些非常特殊的目標進行識別，因為就整個網絡而言，它們沒有別的事情要做。

與之相關的是Geoff Hinton教授的理想目標，即擁有一個目標可以轉化到其中的更高的空間域。每次，不管方向如何，在這個更高的域空間內目標都被轉換成了相同的剛性形狀。達到該目標的一種方法是使用特定的膠囊以幫助將目標轉化到更高的域空間中。

為了建立一個膠囊網絡，我們可以從1980年代的發明——霍夫變換（Hough Transforms）中獲得靈感。其應用的基本思想是有一個兩部分的結構，我將其稱之為斑點（speck）。一般的speck預測坐標系為X的概率，另一半預測姿勢。然后將這些child_speck_s饋送到父speck中。如果獲得這些child_speck_s的足夠多的同意后，那么父speck就會給出坐標系為Y的概率，這是一個比X更復雜的目標。例如，child_speck_s可以預測嘴巴、鼻子和眼睛及其所處的方向，然后將其饋送到能夠預測到臉部及其姿勢的父speck中。

現在，讓我們用膠囊代替那些神經元。較低級別的膠囊通過識別該目標的較簡單的子部分來做一個該目標可能是什么的“弱賭注”，然后一個更高級別的膠囊會采取這些低級別的賭注，并試圖看看它們是否同意。如果它們中有足夠多的同意，那么這個目標就是Y，這可能是非常巧合。而這就是這些膠囊網絡運行方式的本質。

而問題在于：我們該如何路由這些較低級別的膠囊，以便將它們送到正確的、更高級別膠囊中？

這就是前些天Hinton等人又推出的創新性研究。（該論文于10月26日上傳，11月7日又做了更新）

那么這個路由算法的運行原理是什么呢？為了搞明白這一點，我們需要定義一些關鍵的想法。為了簡化，我們將假設一個兩層的膠囊網絡。將原始特征饋送到層LA中，并將來自層LA的輸出饋送到層LB中，其中兩個層都是由膠囊組成的。

首先，我們對來自層LA并會輸入到層LB的稱之為u的輸出矩陣進行加權，然后這些權重將被存儲為一個向量W，將這兩者相乘將得到u"。

然后，路由算法決定一個稱為耦合系數c的附加參數，這個系數將減少發送到不正確的膠囊的信息，這可以通過適當減少它們的權重實現。我們還通過使用特定函數來“壓縮（squash）”整個輸入，這將確保低幅值向量被壓縮到幾乎為零，而高幅值向量將得到一個只略小于1的長度。這是因為本文中的動態路由算法使用向量的幅度來表示目標在正確輸入中出現的概率。因此，這些輸入向量不必太過于專注幅度。

我將在這里簡單描述路由算法。你可以在論文中看到更為具體的確切形式。需要記住的是，他們提到這個只是一種可以實現路由算法的方法，所以隨著時間的推移，可能會有更多的猜測出現。

作為背景，b用來表示對數先驗概率，并且耦合因子c被確定為b的softmax函數。

對于層LA和層LB層中的每個膠囊，我們將先驗b設置為0。然后，對于r迭代，我們遍歷每個膠囊并將耦合因子c設置為b的softmax函數。我們通過將c與u"相乘來計算s。產生的結果值將被稱為s。進入層LB的每一個輸入都用適當的函數進行“壓縮”以得到v。然后對每個膠囊，我們通過將u和v的值加到b中以對其進行調整。

下面是一個更為較精確、學術更為友好的算法顯示：

# Dynamic Routing Algorithm

for all capsules _i_ in layer A and capsules _j_ in layer B, set _b_

to 0

for _r_ iterations:

for all capsules i in layer A: _c_ is the softmax of _b_

for all capsules j in layer B: _s_ is the multiplication of _c_ &

_u_

for all capsules j in layer B: _v_ is the squashed input of _s_

fir all capsules i in layer A and capsules j in layer B: _b_ is

set to _b_ + _u"_ * _v_

這篇論文包含的內容還有很多，我可能會在接下來的文章中闡述更多，主要是有關在MNIST數據集上的性能以及使用稱為CapsNet的卷積神經網絡進行的特定實現。

使用Keras實現CapsNet：https://github.com/XifengGuo/CapsNet-Keras

歡迎加入本站公開興趣群

商業智能與數據分析群

興趣范圍包括各種讓數據產生價值的辦法，實際應用案例分享與討論，分析工具，ETL工具，數據倉庫，數據挖掘工具，報表系統等全方位知識

QQ群：81035754

云服務器 GPU云服務器 idc界的精品網絡如何理解云計算如何理解深度學習深度學習如何理解

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/4678.html

可視化CapsNet，詳解Hinton等人提出的膠囊概念與原理

摘要：本文從可視化的角度出發詳解釋了的原理的計算過程，非常有利于直觀理解它的結構。具體來說，是那些水平方向的邊緣。訓練過程可以自動完成這一工作。更進一步地說，這意味著每個膠囊含有一個擁有個值的數組，而一般我們稱之為向量。 CapsNet 將神經元的標量輸出轉換為向量輸出提高了表征能力，我們不僅能用它表示圖像是否有某個特征，同時還能表示這個特征的旋轉和位置等物理特征。本文從可視化的角度出發詳解釋了 ...

NicolasHe 2019-04-25 18:25 評論0 收藏0
深度學習教父Geoffrey Hinton的“膠囊理論”終于發出論文

摘要：在底層的膠囊之后連接了層和層。膠囊效果的討論在論文最后，作者們對膠囊的表現進行了討論。他們認為，由于膠囊具有分別處理不同屬性的能力，相比于可以提高對圖像變換的健壯性，在圖像分割中也會有出色的表現。背景目前的神經網絡中，每一層的神經元都做的是類似的事情，比如一個卷積層內的每個神經元都做的是一樣的卷積操作。而Hinton堅信，不同的神經元完全可以關注不同的實體或者屬性，比如在一開始就有不同的神...

VincentFF 2019-04-25 18:20 評論0 收藏0
卷積網絡雖動人，膠囊網絡更傳“神”

摘要：而加快推動這一趨勢的，正是卷積神經網絡得以雄起的大功臣。卷積神經網絡面臨的挑戰對的深深的質疑是有原因的。據此，也斷言卷積神經網絡注定是沒有前途的神經膠囊的提出在批判不足的同時，已然備好了解決方案，這就是我們即將討論的膠囊神經網絡，簡稱。本文作者張玉宏2012年于電子科技大學獲計算機專業博士學位，2009~2011年美國西北大學聯合培養博士，現執教于河南工業大學，電子科技大學博士后。中國計...

zhisheng 2019-04-25 18:27 評論0 收藏0
膠囊網絡9大優勢4大缺陷

摘要：鏈接是他們在數據集上達到了較先進的性能，并且在高度重疊的數字上表現出比卷積神經網絡好得多的結果。在常規的卷積神經網絡中，通常會有多個匯聚層，不幸的是，這些匯聚層的操作往往會丟失很多信息，比如目標對象的準確位置和姿態。 PPT由于筆者能力有限，本篇所有備注皆為專知內容組成員根據講者視頻和PPT內容自行補全，不代表講者本人的立場與觀點。膠囊網絡Capsule Networks你好！我是Aurél...

TesterHome 2019-04-25 18:22 評論0 收藏0
深度學習out了？深度解讀AI領域三大前瞻技術

摘要：而這種舉一反三的能力在機器學習領域同樣適用，科學家將其稱之為遷移學習。與深度學習相比，我們技術較大優點是具有可證明的性能保證。近幾年的人工智能熱潮中，深度學習是最主流的技術，以及之后的成功，更是使其幾乎成為的代名詞。如今，人類將自己的未來放到了技術手里，無論是讓人工智能更像人類思考的算法，還是讓機器人大腦運轉更快的芯片，都在向奇點靠近。谷歌工程總監、《奇點臨近》的作者庫茲韋爾認為，一旦智能...

muddyway 2019-04-25 18:27 評論0 收藏0