神經(jīng)網(wǎng)絡(luò)

Anonymous1 發(fā)布于2019-07-30 16:39 / 2915人閱讀

摘要：通過將神經(jīng)元的值設(shè)置為希望的模式來訓(xùn)練網(wǎng)絡(luò)，之后可以計(jì)算權(quán)重。輸入神經(jīng)元在完整網(wǎng)絡(luò)更新結(jié)束時(shí)變成輸出神經(jīng)元。在某種程度上，這類似于峰值神經(jīng)網(wǎng)絡(luò)，并不是所有的神經(jīng)元始終都在發(fā)射并且點(diǎn)的生物合理性得分。

隨著新的神經(jīng)網(wǎng)絡(luò)架構(gòu)不時(shí)出現(xiàn)，很難跟蹤這些架構(gòu)。知道所有縮寫（DCIGN，BiLSTM，DCGAN，任何人？）起初可能有點(diǎn)壓倒性。

所以我決定編寫一個(gè)包含許多這些體系結(jié)構(gòu)的備忘單。這些大多數(shù)是神經(jīng)網(wǎng)絡(luò)，有些是完全不同的野獸。雖然所有這些體系結(jié)構(gòu)都是新穎而獨(dú)特的，但是當(dāng)我繪制節(jié)點(diǎn)結(jié)構(gòu)時(shí)......它們的基礎(chǔ)關(guān)系開始變得更有意義。

神經(jīng)網(wǎng)絡(luò)

將它們繪制為節(jié)點(diǎn)映射時(shí)存在一個(gè)問題：它并不真正顯示它們是如何使用的。例如，變分自動(dòng)編碼器（VAE）看起來就像自動(dòng)編碼器（AE），但是訓(xùn)練過程實(shí)際上完全不同。受過訓(xùn)練的網(wǎng)絡(luò)的用例差異更大，因?yàn)閂AE是生成器，您可以在其中插入噪聲來獲取新樣本。AE，只需將他們得到的任何輸入映射到他們“記得”的最接近的訓(xùn)練樣本。我應(yīng)該補(bǔ)充一點(diǎn)，這個(gè)概述并沒有說明每種不同的節(jié)點(diǎn)類型如何在內(nèi)部工作（但這是另一天的話題）。

應(yīng)該指出的是，雖然大部分縮寫都是普遍接受的，但并非全部都是。RNN有時(shí)指的是遞歸神經(jīng)網(wǎng)絡(luò)，但大多數(shù)時(shí)候他們指的是遞歸神經(jīng)網(wǎng)絡(luò)。盡管如此，在許多地方，你會(huì)發(fā)現(xiàn)RNN用作任何經(jīng)常性架構(gòu)的占位符，包括LSTM，GRU甚至雙向變體。AE不時(shí)遇到類似問題，其中VAE和DAE等簡稱為AE。許多縮寫在最后添加的“N”數(shù)量上也不相同，因?yàn)槟梢詫⑵浞Q為卷積神經(jīng)網(wǎng)絡(luò)，但也僅僅是卷積網(wǎng)絡(luò)（導(dǎo)致CNN或CN）。

隨著新體系結(jié)構(gòu)的不斷發(fā)明，編寫完整列表幾乎是不可能的。即使發(fā)布它，即使你正在尋找它們，仍然會(huì)很難找到它們，或者有時(shí)候你會(huì)忽略一些。因此，盡管這份名單可能會(huì)讓你對AI的世界有所了解，但請絕對不要把這份名單列為全面的; 特別是如果你在寫這篇文章后很長時(shí)間閱讀這篇文章。

對于圖中描繪的每個(gè)架構(gòu)，我都寫了一個(gè)非常非常簡短的描述。如果您對某些體系結(jié)構(gòu)非常熟悉，但是您對特定體系結(jié)構(gòu)不熟悉，則可能會(huì)發(fā)現(xiàn)其中的一些功能非常有用。

前饋神經(jīng)網(wǎng)絡(luò)（FF或FFNN）和感知器（P）非常直截了當(dāng)，它們將信息從前面輸入到后面（分別是輸入和輸出）。神經(jīng)網(wǎng)絡(luò)通常被描述為具有層，其中每個(gè)層由輸入，隱藏或輸出單元并行組成。一層獨(dú)自從來沒有連接，并且通常兩個(gè)相鄰的層完全連接（每個(gè)神經(jīng)元形成一層到每個(gè)神經(jīng)元到另一層）。最簡單的實(shí)用網(wǎng)絡(luò)有兩個(gè)輸入單元和一個(gè)輸出單元，可用于建模邏輯門。人們通常通過反向傳播來訓(xùn)練FFNN，給出網(wǎng)絡(luò)配對的“進(jìn)入的內(nèi)容”和“我們想要出來的內(nèi)容”的數(shù)據(jù)集。這就是所謂的監(jiān)督學(xué)習(xí)，相對于無監(jiān)督學(xué)習(xí)，我們只給它輸入并讓網(wǎng)絡(luò)填充空白。反向傳播的誤差通常是輸入和輸出之間差異的一些變化（如MSE或線性差異）。鑒于網(wǎng)絡(luò)具有足夠的隱藏的神經(jīng)元，它在理論上可以始終模擬輸入和輸出之間的關(guān)系。實(shí)際上，它們的使用受到很多限制，但它們普遍與其他網(wǎng)絡(luò)結(jié)合形成新的網(wǎng)絡(luò)。

徑向基函數(shù)（RBF）網(wǎng)絡(luò)是具有徑向基函數(shù)作為激活函數(shù)的FFNN。沒有什么更多。這并不意味著他們沒有他們的用途，但是大多數(shù)具有其他激活功能的FFNN并沒有得到他們自己的名字。這主要與在正確的時(shí)間發(fā)明它們有關(guān)。

甲的Hopfield網(wǎng)絡(luò)（HN）是每個(gè)神經(jīng)元都與其他神經(jīng)元相連的網(wǎng)絡(luò); 它是一個(gè)完全糾結(jié)的意大利面板，即使所有的節(jié)點(diǎn)都起著一切作用。每個(gè)節(jié)點(diǎn)在訓(xùn)練之前輸入，然后在訓(xùn)練期間隱藏并在之后輸出。通過將神經(jīng)元的值設(shè)置為希望的模式來訓(xùn)練網(wǎng)絡(luò)，之后可以計(jì)算權(quán)重。此后重量不會(huì)改變。一旦接受過一種或多種模式的訓(xùn)練，網(wǎng)絡(luò)就會(huì)始終聚合到其中一種學(xué)習(xí)模式，因?yàn)榫W(wǎng)絡(luò)在這些狀態(tài)中僅保持穩(wěn)定。請注意，它并不總是符合所需的狀態(tài)（這不是一個(gè)可悲的不可思議的黑盒子）。它的穩(wěn)定部分歸因于訓(xùn)練期間網(wǎng)絡(luò)的總“能量”或“溫度”逐漸減少。每個(gè)神經(jīng)元都有一個(gè)可以調(diào)節(jié)到這個(gè)溫度的激活閾值，如果超過輸入的總和，神經(jīng)元會(huì)采取兩種狀態(tài)之一（通常為-1或1，有時(shí)為0或1）。更新網(wǎng)絡(luò)可以同步完成，也可以逐個(gè)完成。如果逐一更新，則創(chuàng)建一個(gè)公平的隨機(jī)序列來組織哪些細(xì)胞以什么順序更新（公平隨機(jī)是所有選項(xiàng)（n）每n項(xiàng)發(fā)生一次）。這樣你就可以知道網(wǎng)絡(luò)什么時(shí)候穩(wěn)定（完成收斂），一旦每個(gè)單元已經(jīng)更新并且沒有更改，網(wǎng)絡(luò)就會(huì)穩(wěn)定（退火）。這些網(wǎng)絡(luò)通常被稱為聯(lián)想記憶，因?yàn)樗諗康脚c輸入最相似的狀態(tài); 如果人類看到一半的桌子，我們可以對另一半進(jìn)行成像，但如果有半噪音和半桌子，這個(gè)網(wǎng)絡(luò)將會(huì)聚合到一張桌子上。

馬爾可夫鏈（MC或離散時(shí)間馬爾可夫鏈，DTMC）是BM和HN的前身。他們可以理解如下：從我現(xiàn)在的這個(gè)節(jié)點(diǎn)來看，我有多大的機(jī)會(huì)去我的鄰居節(jié)點(diǎn)？它們是無記憶的（即馬爾科夫?qū)傩裕@意味著你最終進(jìn)入的每個(gè)狀態(tài)完全取決于以前的狀態(tài)。雖然不是一個(gè)真正的神經(jīng)網(wǎng)絡(luò)，但它們確實(shí)與神經(jīng)網(wǎng)絡(luò)相似，并構(gòu)成了BM和HN的理論基礎(chǔ)。MC并不總是被認(rèn)為是神經(jīng)網(wǎng)絡(luò)，就像BM，RBM和HN一樣。馬爾可夫鏈并不總是完全連接。

玻爾茲曼機(jī)器（BM）與HN很相似，但是：一些神經(jīng)元被標(biāo)記為輸入神經(jīng)元，而其他神經(jīng)元?jiǎng)t被“隱藏”。輸入神經(jīng)元在完整網(wǎng)絡(luò)更新結(jié)束時(shí)變成輸出神經(jīng)元。它從隨機(jī)權(quán)重開始，通過反向傳播學(xué)習(xí)，或者最近通過對比發(fā)散學(xué)習(xí)（馬爾可夫鏈被用來確定兩個(gè)信息增益之間的梯度）。與HN相比，神經(jīng)元大多具有二元激活模式。正如MC被訓(xùn)練所暗示的那樣，BM是隨機(jī)網(wǎng)絡(luò)。BM的訓(xùn)練和運(yùn)行過程與HN非常相似：將輸入神經(jīng)元設(shè)置為特定的鉗位值，之后網(wǎng)絡(luò)被釋放（它不會(huì)獲得襪子）。雖然釋放細(xì)胞可以獲得任何價(jià)值，我們反復(fù)在輸入和隱藏的神經(jīng)元之間來回。激活由全局溫度值控制，如果降低則降低電池的能量。這種較低的能量導(dǎo)致其激活模式穩(wěn)定。考慮到正確的溫度，網(wǎng)絡(luò)達(dá)到平衡。

受限玻爾茲曼機(jī)器（RBM）與BM（驚喜）非常相??似，因此也與HN類似。管理層和管理層之間最大的區(qū)別是，管理層管理是一種更好的可用方式，因?yàn)樗鼈兏芟拗啤Ｋ鼈儾粫?huì)觸發(fā) - 將每個(gè)神經(jīng)元連接到每個(gè)其他神經(jīng)元，但只將每個(gè)不同組的神經(jīng)元連接到每個(gè)其他組，因此沒有輸入神經(jīng)元直接連接到其他輸入神經(jīng)元，也沒有隱藏到隱藏連接。RBM可以像扭曲一樣被FFNNs訓(xùn)練：不是向前傳遞數(shù)據(jù)然后向后傳播，而是向前傳遞數(shù)據(jù)，然后向后傳遞數(shù)據(jù)（返回到第一層）。之后，您將訓(xùn)練前后傳播。

自動(dòng)編碼器（AE）有點(diǎn)類似于FFNN，因?yàn)锳E更像是FFNN的不同用途，而不是根本不同的架構(gòu)。自動(dòng)編碼器的基本思想是自動(dòng)編碼信息（如壓縮，不加密），因此名稱。整個(gè)網(wǎng)絡(luò)總是類似于沙漏形狀，隱藏層比輸入和輸出層小。AE也總是在中間層周圍是對稱的（一個(gè)或兩個(gè)取決于偶數(shù)層或奇數(shù)層）。最小的層幾乎總是在中間，信息被壓縮得最多的地方（網(wǎng)絡(luò)的阻塞點(diǎn)）。到中間的所有東西都被稱為編碼部分，解碼和中間（驚喜）代碼之后的所有東西都被稱為編碼部分。人們可以通過反饋傳播訓(xùn)練他們，通過喂養(yǎng)輸入并將錯(cuò)誤設(shè)置為輸入和輸出之間的差異。當(dāng)涉及權(quán)重時(shí)，AE也可以對稱地構(gòu)建，因此編碼權(quán)重與解碼權(quán)重相同。

稀疏自動(dòng)編碼器（SAE）與AE相反。我們試圖在更多的空間中對信息進(jìn)行編碼，而不是通過教授網(wǎng)絡(luò)來代表一堆信息在更少的“空間”或節(jié)點(diǎn)中。因此，不是網(wǎng)絡(luò)在中間收斂，而是擴(kuò)大到輸入大小，我們炸掉了中間。這些類型的網(wǎng)絡(luò)可用于從數(shù)據(jù)集中提取許多小特征。如果有人像AE一樣訓(xùn)練SAE，幾乎在所有情況下，最終都會(huì)有一個(gè)非常無用的身份網(wǎng)絡(luò)（就像出現(xiàn)的那樣，沒有任何轉(zhuǎn)換或分解）。為了防止這種情況，我們不是反饋輸入，而是反饋輸入加稀疏驅(qū)動(dòng)程序。這個(gè)稀疏驅(qū)動(dòng)程序可以采用閾值過濾器的形式，其中只有特定的錯(cuò)誤被傳回并訓(xùn)練，另一個(gè)錯(cuò)誤將是“無關(guān)緊要”，并設(shè)置為零。在某種程度上，這類似于峰值神經(jīng)網(wǎng)絡(luò)，并不是所有的神經(jīng)元始終都在發(fā)射（并且點(diǎn)的生物合理性得分）。

變分自編碼器（VAE）具有與AE相同的體系結(jié)構(gòu)，但是“教授”了其他內(nèi)容：輸入樣本的近似概率分布。這有點(diǎn)回歸根源，因?yàn)樗鼈兣cBM和RBM更密切相關(guān)。然而，他們確實(shí)依賴貝葉斯數(shù)學(xué)有關(guān)概率推理和獨(dú)立性，以及實(shí)現(xiàn)這種不同表示的重新參數(shù)化技巧。推理和獨(dú)立部分直觀地理解，但他們依賴于有些復(fù)雜的數(shù)學(xué)。基本要?dú)w結(jié)為：考慮到影響。如果一件事發(fā)生在一個(gè)地方，而其他地方發(fā)生了其他事情，它們不一定是相關(guān)的。如果它們不相關(guān)，那么錯(cuò)誤傳播應(yīng)該考慮這一點(diǎn)。這是一個(gè)有用的方法，因?yàn)樯窠?jīng)網(wǎng)絡(luò)是大圖（某種程度上），

去噪自動(dòng)編碼器（DAE）是我們不僅僅輸入輸入數(shù)據(jù)的AE，但是我們?yōu)檩斎霐?shù)據(jù)提供了噪聲（如使圖像更加粗糙）。我們以相同的方式計(jì)算誤差，所以網(wǎng)絡(luò)的輸出與沒有噪聲的原始輸入進(jìn)行比較。這鼓勵(lì)網(wǎng)絡(luò)不去學(xué)習(xí)細(xì)節(jié)，而是學(xué)習(xí)更廣泛的功能，因?yàn)閷W(xué)習(xí)較小的功能通常會(huì)因?yàn)樵肼暡粩嘧兓兊谩板e(cuò)誤”。

深度信念網(wǎng)絡(luò)（DBN）是主要針對RBM或VAE的堆疊體系結(jié)構(gòu)的名稱。這些網(wǎng)絡(luò)已被證明是有效的可堆疊堆棧，其中每個(gè)AE或RBM只需要學(xué)習(xí)編碼以前的網(wǎng)絡(luò)。這種技術(shù)也被稱為貪婪訓(xùn)練，其中貪婪意味著使局部最優(yōu)解得到一個(gè)體面的但可能不是最佳答案。可以通過對比分歧或反向傳播來訓(xùn)練DBN，并學(xué)習(xí)如同常規(guī)RBM或VAE一樣將數(shù)據(jù)表示為概率模型。一旦通過無監(jiān)督學(xué)習(xí)訓(xùn)練或融合到（更多）穩(wěn)定狀態(tài)，模型可用于生成新數(shù)據(jù)。如果采用對比分歧進(jìn)行訓(xùn)練，它甚至可以對現(xiàn)有數(shù)據(jù)進(jìn)行分類，因?yàn)橐呀?jīng)教會(huì)神經(jīng)元尋找不同的特征。

卷積神經(jīng)網(wǎng)絡(luò)（CNN或深度卷積神經(jīng)網(wǎng)絡(luò)，DCNN）與大多數(shù)其他網(wǎng)絡(luò)完全不同。它們主要用于圖像處理，但也可用于其他類型的輸入，如音頻。一個(gè)典型的用例細(xì)胞神經(jīng)網(wǎng)絡(luò)是你養(yǎng)活網(wǎng)絡(luò)圖像和網(wǎng)絡(luò)分類的數(shù)據(jù)，例如，如果你給它一個(gè)貓的圖片和“狗”，當(dāng)你給它一個(gè)犬的圖像輸出“貓”。CNN傾向于以輸入“掃描儀”開始，該輸入“掃描儀”不是一次性解析所有訓(xùn)練數(shù)據(jù)。例如，要輸入200 x 200像素的圖像，您不需要具有40 000個(gè)節(jié)點(diǎn)的圖層。相反，您創(chuàng)建一個(gè)掃描輸入圖層，例如20 x 20，您輸入圖像的前20 x 20像素（通常從左上角開始）。一旦您通過了該輸入（并可能將其用于訓(xùn)練），您就可以為其提供接下來的20 x 20像素：將掃描儀向右移動(dòng)一個(gè)像素。請注意，您不會(huì)將輸入的20像素（或任何掃描儀寬度）移動(dòng)過來，您不會(huì)將圖像解剖為20 x 20的塊，而是您正在爬過它。然后，這個(gè)輸入數(shù)據(jù)通過卷積層而不是普通層傳送，其中并非所有節(jié)點(diǎn)都連接到所有節(jié)點(diǎn)。每個(gè)節(jié)點(diǎn)只關(guān)注緊密相鄰的單元（關(guān)閉程度取決于實(shí)現(xiàn)，但通常不會(huì)超過幾個(gè)）。這些卷積層也傾向于收縮，因?yàn)樗鼈冏兊酶睿饕奢斎氲娜菀渍蜃樱ㄋ?0可能會(huì)轉(zhuǎn)到隨后的5層10的層）。二的冪非常普遍這里使用，因?yàn)樗鼈兛梢酝ㄟ^定義被干凈和完全分割：32，16，8,4，2，1。除了這些卷積層，它們也常常設(shè)有匯集層。池化是過濾細(xì)節(jié)的一種方式：常見的池化技術(shù)是最大池化，在這里我們?nèi)? x 2像素并傳遞最多量的紅色像素。要將CNN應(yīng)用于音頻，您基本上需要逐段輸入輸入音頻波形和英寸長度。現(xiàn)實(shí)世界的CNN實(shí)現(xiàn)通常會(huì)將FFNN粘貼到最后以進(jìn)一步處理數(shù)據(jù)，這允許高度非線性的抽象。這些網(wǎng)絡(luò)被稱為DCNN，但這兩個(gè)網(wǎng)絡(luò)之間的名稱和縮寫經(jīng)常互換使用。現(xiàn)實(shí)世界的CNN實(shí)現(xiàn)通常會(huì)將FFNN粘貼到最后以進(jìn)一步處理數(shù)據(jù)，這允許高度非線性的抽象。這些網(wǎng)絡(luò)被稱為DCNN，但這兩個(gè)網(wǎng)絡(luò)之間的名稱和縮寫經(jīng)常互換使用。現(xiàn)實(shí)世界的CNN實(shí)現(xiàn)通常會(huì)將FFNN粘貼到最后以進(jìn)一步處理數(shù)據(jù)，這允許高度非線性的抽象。這些網(wǎng)絡(luò)被稱為DCNN，但這兩個(gè)網(wǎng)絡(luò)之間的名稱和縮寫經(jīng)常互換使用。

解卷積網(wǎng)絡(luò)（DN），也稱為反向圖形網(wǎng)絡(luò)（IGN），是反卷積神經(jīng)網(wǎng)絡(luò)。想象一下，給網(wǎng)絡(luò)喂“貓”這個(gè)詞，并通過比較它產(chǎn)生的真實(shí)照片與貓一起訓(xùn)練它來產(chǎn)生類似貓的照片。DNN可以像常規(guī)的CNN一樣與FFNN結(jié)合使用，但是這是關(guān)于繪制線條以提供新縮寫的點(diǎn)。他們可能被稱為深層去卷積神經(jīng)網(wǎng)絡(luò)，但你可以爭辯說，當(dāng)你將FFNN粘貼到DNN的后面和前面時(shí)，你就有了另一個(gè)值得一個(gè)新名字的架構(gòu)。請注意，在大多數(shù)應(yīng)用程序中，實(shí)際上不會(huì)向網(wǎng)絡(luò)輸入類似文本的輸入，更可能是二進(jìn)制分類輸入向量。認(rèn)為<0，1>是貓，<1,0>是狗，<1，1>是貓和狗。

深卷積逆向圖形網(wǎng)絡(luò)（DCIGN）的名稱有些誤導(dǎo)，因?yàn)樗鼈儗?shí)際上是VAE，但是針對各自的編碼器和解碼器使用了CNN和DNN。這些網(wǎng)絡(luò)試圖在編碼中將“特征”建模為概率，以便它可以學(xué)習(xí)與貓和狗一起制作一張圖片，而且只能在兩張圖片中看到其中的一張。同樣，你可以喂它一張貓的照片，讓你的鄰居的惱人的狗在上面，并要求它把狗取出，而不用做這樣的操作。演示表明，這些網(wǎng)絡(luò)還可以學(xué)習(xí)如何對圖像進(jìn)行復(fù)雜轉(zhuǎn)換，例如更改光源或3D對象的旋轉(zhuǎn)。這些網(wǎng)絡(luò)傾向于用反向傳播進(jìn)行訓(xùn)練。

生成敵對網(wǎng)絡(luò)（GAN）來自不同品種的網(wǎng)絡(luò)，他們是雙胞胎：兩個(gè)網(wǎng)絡(luò)一起工作。GAN由任何兩個(gè)網(wǎng)絡(luò)組成（盡管通常是FF和CNN的組合），其中一個(gè)負(fù)責(zé)生成內(nèi)容，另一個(gè)負(fù)責(zé)判斷內(nèi)容。鑒別網(wǎng)絡(luò)接收來自生成網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)或生成的內(nèi)容。識別網(wǎng)絡(luò)如何能夠正確預(yù)測數(shù)據(jù)源然后用作生成網(wǎng)絡(luò)的錯(cuò)誤的一部分。這就形成了一種競爭形式，鑒別者在區(qū)分實(shí)際數(shù)據(jù)和生成數(shù)據(jù)方面越來越好，而生成者正在學(xué)習(xí)對鑒別器的預(yù)測能力降低。這部分工作的部分原因是，即使非常復(fù)雜的類噪音模式最終可預(yù)測，但生成的內(nèi)容與輸入數(shù)據(jù)相似的內(nèi)容更難以區(qū)分。GAN可能很難訓(xùn)練，因?yàn)槟悴粌H需要訓(xùn)練兩個(gè)網(wǎng)絡(luò)（這兩個(gè)網(wǎng)絡(luò)都會(huì)造成它自己的問題），但它們的動(dòng)態(tài)也需要平衡。如果預(yù)測或生成與另一個(gè)相比變得更好，GAN將不會(huì)收斂，因?yàn)榇嬖趦?nèi)在的分歧。

遞歸神經(jīng)網(wǎng)絡(luò)（RNN）是時(shí)間扭曲的FFNN：他們不是無國籍的; 他們之間有通過連接，通過時(shí)間連接。神經(jīng)元的信息不僅來自上一層，而且來自前一層的信息。這意味著您輸入飼料和訓(xùn)練網(wǎng)絡(luò)的順序很重要：與喂養(yǎng)“餅干”和“牛奶”相比，喂養(yǎng)它“牛奶”然后“餅干”可能會(huì)產(chǎn)生不同的結(jié)果。RNN的一個(gè)大問題是消失（或爆炸）梯度問題，根據(jù)所使用的激活函數(shù)，隨著時(shí)間的推移信息會(huì)迅速丟失，就像非常深的FFNN深度丟失信息一樣。直觀地說，這不會(huì)成為一個(gè)問題，因?yàn)檫@些只是權(quán)重而不是神經(jīng)元狀態(tài)，但時(shí)間間隔的權(quán)重實(shí)際上是來自過去的信息的存儲(chǔ)位置; 如果重量達(dá)到0或1 000 000的值，以前的狀態(tài)將不會(huì)提供很多信息。RNN原則上可以用于很多領(lǐng)域，因?yàn)榇蠖鄶?shù)形式的數(shù)據(jù)實(shí)際上沒有時(shí)間線（即，不同于聲音或視頻）可以表示為序列。一張圖片或一串文本可以一次輸入一個(gè)像素或字符，因此時(shí)間相關(guān)的權(quán)重用于序列中之前的內(nèi)容，而不是實(shí)際上與之前X秒內(nèi)發(fā)生的內(nèi)容相關(guān)。一般而言，經(jīng)常性網(wǎng)絡(luò)是推進(jìn)或完成信息的良好選擇，例如自動(dòng)完成。一張圖片或一串文本可以一次輸入一個(gè)像素或字符，因此時(shí)間相關(guān)的權(quán)重用于序列中之前的內(nèi)容，而不是實(shí)際上與之前X秒內(nèi)發(fā)生的內(nèi)容相關(guān)。一般而言，經(jīng)常性網(wǎng)絡(luò)是推進(jìn)或完成信息的良好選擇，例如自動(dòng)完成。一張圖片或一串文本可以一次輸入一個(gè)像素或字符，因此時(shí)間相關(guān)的權(quán)重用于序列中之前的內(nèi)容，而不是實(shí)際上與之前X秒內(nèi)發(fā)生的內(nèi)容相關(guān)。一般而言，經(jīng)常性網(wǎng)絡(luò)是推進(jìn)或完成信息的良好選擇，例如自動(dòng)完成。

長期/短期記憶（LSTM）網(wǎng)絡(luò)試圖通過引入門和明確定義的存儲(chǔ)器單元來對抗消失/爆炸梯度問題。這些靈感主要來自電路，而不是生物學(xué)。每個(gè)神經(jīng)元都有一個(gè)存儲(chǔ)單元和三個(gè)門：輸入，輸出和忘記。這些門的功能是通過停止或允許信息流來保護(hù)信息。輸入門決定了來自上一層的多少信息存儲(chǔ)在單元中。輸出層在另一端獲取作業(yè)，并確定下一層有多少知道該單元的狀態(tài)。忘記門起初看起來像是一個(gè)奇怪的包容，但有時(shí)候忘記是很好的：如果它正在學(xué)習(xí)一本書并開始新的一章，那么網(wǎng)絡(luò)可能需要忘記前一章中的一些字符。已經(jīng)證明LSTM能夠?qū)W習(xí)復(fù)雜的序列，例如像莎士比亞的寫作或者創(chuàng)作原始音樂。請注意，這些門中的每一個(gè)都對前一個(gè)神經(jīng)元中的一個(gè)單元具有權(quán)重，因此它們通常需要更多資源才能運(yùn)行。

門控復(fù)發(fā)單位（GRU）在LSTMs上略有差異。他們有一個(gè)門少一些，連接方式稍有不同：他們有一個(gè)更新門，而不是輸入，輸出和忘記門。這個(gè)更新門決定了從最后一個(gè)狀態(tài)開始保留多少信息以及從上一個(gè)層開始輸入多少信息。復(fù)位門的功能與LSTM的忘記門非常相似，但位置稍有不同。他們總是發(fā)出完整的狀態(tài)，他們沒有輸出門。在大多數(shù)情況下，它們的功能與LSTM非常相似，最大的不同之處在于GRU稍快并且更容易運(yùn)行（但表現(xiàn)力稍差）。在實(shí)踐中，這些往往會(huì)互相抵消，因?yàn)槟阈枰粋€(gè)更大的網(wǎng)絡(luò)來重新獲得一些表現(xiàn)力，然后消除表現(xiàn)的好處。

神經(jīng)圖靈機(jī)（NTM）可以理解為LSTM的一種抽象，也是一種嘗試使用非黑箱神經(jīng)網(wǎng)絡(luò)的方法（并且讓我們了解那里正在發(fā)生的事情）。不是直接將存儲(chǔ)器單元編碼到神經(jīng)元中，而是將存儲(chǔ)器分開。它試圖將常規(guī)數(shù)字存儲(chǔ)的效率和永久性與神經(jīng)網(wǎng)絡(luò)的效率和表現(xiàn)力結(jié)合起來。這個(gè)想法是有一個(gè)內(nèi)容尋址存儲(chǔ)庫和一個(gè)可以讀寫的神經(jīng)網(wǎng)絡(luò)。神經(jīng)圖靈機(jī)中的“圖靈”來自它們的圖靈完整性：根據(jù)讀取的內(nèi)容讀取和寫入并改變狀態(tài)的能力意味著它可以代表通用圖靈機(jī)可以表示的任何東西。

雙向遞歸神經(jīng)網(wǎng)絡(luò)，雙向長期/短期記憶網(wǎng)絡(luò)和雙向門控循環(huán)單元（分別為BiRNN，BiLSTM和BiGRU）不會(huì)顯示在圖表上，因?yàn)樗鼈兛雌饋砼c單向同行完全一樣。不同之處在于，這些網(wǎng)絡(luò)不僅與過去相連，而且與未來相連。舉例來說，單向LSTMs可能會(huì)被訓(xùn)練成通過逐字地輸入字母來預(yù)測單詞“fish”，其中通過時(shí)間的循環(huán)連接記住最后一個(gè)值。一個(gè)BiLSTM也將被送入下一個(gè)順序中的下一個(gè)字母，讓它訪問未來的信息。這訓(xùn)練網(wǎng)絡(luò)來填補(bǔ)空白，而不是推進(jìn)信息，所以不是在邊緣上展開圖像，而是在圖像的中間填充一個(gè)洞。

深度剩余網(wǎng)絡(luò)（DRN）是非常深的FFNN，具有額外的連接，將輸入從一個(gè)層傳遞到后一層（通常是2到5層）以及下一層。而不是試圖找到一個(gè)解決方案來將某些輸入映射到某個(gè)輸出，例如5層，網(wǎng)絡(luò)就會(huì)強(qiáng)制學(xué)習(xí)將某些輸入映射到某些輸出+某些輸入。基本上，它為解決方案增加了一個(gè)標(biāo)識，將舊的輸入傳送到新的層次。已經(jīng)證明，這些網(wǎng)絡(luò)在學(xué)習(xí)深達(dá)150層的模式方面非常有效，遠(yuǎn)遠(yuǎn)超過人們可以期望訓(xùn)練的常規(guī)2至5層。然而，已經(jīng)證明，這些網(wǎng)絡(luò)本質(zhì)上只是RNN而沒有明確的基于時(shí)間的構(gòu)造，并且它們通常與沒有門的LSTM相比較。

回聲狀態(tài)網(wǎng)絡(luò)（ESN）是另一種不同類型的（經(jīng)常性）網(wǎng)絡(luò)。這個(gè)人通過神經(jīng)元之間的隨機(jī)連接（即沒有組織成整齊的層）來區(qū)別于他人，并且他們受到不同的訓(xùn)練。我們提供輸入，轉(zhuǎn)發(fā)它并更新神經(jīng)元一段時(shí)間，然后觀察隨著時(shí)間的推移輸出，而不是喂養(yǎng)輸入和反向傳播錯(cuò)誤。輸入層和輸出層具有輕微非常規(guī)的作用，因?yàn)檩斎雽佑糜趩?dòng)網(wǎng)絡(luò)，輸出層充當(dāng)隨時(shí)間展開的激活模式的觀察者。在訓(xùn)練期間，只有觀察者和隱藏單位（的湯）之間的聯(lián)系被改變。

極限學(xué)習(xí)機(jī)（ELM）基本上是FFNN，但具有隨機(jī)連接。它們看起來與LSM和ESN非常相似，但它們不是經(jīng)常性的，也不是尖銳的。他們也不使用反向傳播。相反，他們從隨機(jī)權(quán)重開始，根據(jù)最小二乘法擬合（所有函數(shù)的最小誤差），在一個(gè)步驟中訓(xùn)練權(quán)重。這導(dǎo)致了一個(gè)表達(dá)性較差的網(wǎng)絡(luò)，但它也比反向傳播快得多。

液態(tài)機(jī)器（LSM）是類似的湯，看起來很像ESN。真正的區(qū)別在于LSMs是一種尖峰神經(jīng)網(wǎng)絡(luò)：乙狀結(jié)腸激活被閾值函數(shù)替代，每個(gè)神經(jīng)元也是一個(gè)累積的記憶細(xì)胞。所以當(dāng)更新神經(jīng)元時(shí)，該值不會(huì)被設(shè)置為鄰居的總和，而是被添加到自身中。一旦達(dá)到閾值，它釋放其能量給其他神經(jīng)元。這會(huì)產(chǎn)生一個(gè)像圖案一樣的尖峰，在一段時(shí)間內(nèi)沒有任何事情發(fā)生，直到突然達(dá)到閾值。

支持向量機(jī)（SVM）找到分類問題的最佳解決方案。通常他們只能對線性可分?jǐn)?shù)據(jù)進(jìn)行分類; 說找出哪些圖像是加菲貓和哪些是史努比，其他任何結(jié)果都不可能。在訓(xùn)練過程中，SVM可以被認(rèn)為是將所有數(shù)據(jù)（Garfields和Snoopys）繪制在圖形上（2D），并計(jì)算出如何在數(shù)據(jù)點(diǎn)之間繪制一條線。這條線將分開數(shù)據(jù)，以便所有的Snoopys都在一邊，Garfields在另一邊。這條線以這樣的方式移動(dòng)到最佳線，使得數(shù)據(jù)點(diǎn)和線之間的邊緣在兩側(cè)最大化。對新數(shù)據(jù)進(jìn)行分類可以通過繪制該圖上的一個(gè)點(diǎn)來完成，并簡單地查看該線的哪一側(cè)（史努比側(cè)或加菲爾德側(cè)）。使用內(nèi)核技巧，可以教他們對n維數(shù)據(jù)進(jìn)行分類。這需要在三維圖中繪制點(diǎn)，以便區(qū)分史努比，加菲貓和西蒙的貓，甚至可以區(qū)分更多的卡通角色。SVM并不總是被認(rèn)為是神經(jīng)網(wǎng)絡(luò)。