摘要:通過將神經(jīng)元的值設(shè)置為希望的模式來訓(xùn)練網(wǎng)絡(luò),之后可以計(jì)算權(quán)重。輸入神經(jīng)元在完整網(wǎng)絡(luò)更新結(jié)束時(shí)變成輸出神經(jīng)元。在某種程度上,這類似于峰值神經(jīng)網(wǎng)絡(luò),并不是所有的神經(jīng)元始終都在發(fā)射并且點(diǎn)的生物合理性得分。
隨著新的神經(jīng)網(wǎng)絡(luò)架構(gòu)不時(shí)出現(xiàn),很難跟蹤這些架構(gòu)。知道所有縮寫(DCIGN,BiLSTM,DCGAN,任何人?)起初可能有點(diǎn)壓倒性。
所以我決定編寫一個(gè)包含許多這些體系結(jié)構(gòu)的備忘單。這些大多數(shù)是神經(jīng)網(wǎng)絡(luò),有些是完全不同的野獸。雖然所有這些體系結(jié)構(gòu)都是新穎而獨(dú)特的,但是當(dāng)我繪制節(jié)點(diǎn)結(jié)構(gòu)時(shí)......它們的基礎(chǔ)關(guān)系開始變得更有意義。
神經(jīng)網(wǎng)絡(luò)
將它們繪制為節(jié)點(diǎn)映射時(shí)存在一個(gè)問題:它并不真正顯示它們是如何使用的。例如,變分自動(dòng)編碼器(VAE)看起來就像自動(dòng)編碼器(AE),但是訓(xùn)練過程實(shí)際上完全不同。受過訓(xùn)練的網(wǎng)絡(luò)的用例差異更大,因?yàn)閂AE是生成器,您可以在其中插入噪聲來獲取新樣本。AE,只需將他們得到的任何輸入映射到他們“記得”的最接近的訓(xùn)練樣本。我應(yīng)該補(bǔ)充一點(diǎn),這個(gè)概述并沒有說明每種不同的節(jié)點(diǎn)類型如何在內(nèi)部工作(但這是另一天的話題)。
應(yīng)該指出的是,雖然大部分縮寫都是普遍接受的,但并非全部都是。RNN有時(shí)指的是遞歸神經(jīng)網(wǎng)絡(luò),但大多數(shù)時(shí)候他們指的是遞歸神經(jīng)網(wǎng)絡(luò)。盡管如此,在許多地方,你會(huì)發(fā)現(xiàn)RNN用作任何經(jīng)常性架構(gòu)的占位符,包括LSTM,GRU甚至雙向變體。AE不時(shí)遇到類似問題,其中VAE和DAE等簡稱為AE。許多縮寫在最后添加的“N”數(shù)量上也不相同,因?yàn)槟梢詫⑵浞Q為卷積神經(jīng)網(wǎng)絡(luò),但也僅僅是卷積網(wǎng)絡(luò)(導(dǎo)致CNN或CN)。
隨著新體系結(jié)構(gòu)的不斷發(fā)明,編寫完整列表幾乎是不可能的。即使發(fā)布它,即使你正在尋找它們,仍然會(huì)很難找到它們,或者有時(shí)候你會(huì)忽略一些。因此,盡管這份名單可能會(huì)讓你對AI的世界有所了解,但請絕對不要把這份名單列為全面的; 特別是如果你在寫這篇文章后很長時(shí)間閱讀這篇文章。
對于圖中描繪的每個(gè)架構(gòu),我都寫了一個(gè)非常非常簡短的描述。如果您對某些體系結(jié)構(gòu)非常熟悉,但是您對特定體系結(jié)構(gòu)不熟悉,則可能會(huì)發(fā)現(xiàn)其中的一些功能非常有用。
前饋神經(jīng)網(wǎng)絡(luò)(FF或FFNN)和感知器(P)非常直截了當(dāng),它們將信息從前面輸入到后面(分別是輸入和輸出)。神經(jīng)網(wǎng)絡(luò)通常被描述為具有層,其中每個(gè)層由輸入,隱藏或輸出單元并行組成。一層獨(dú)自從來沒有連接,并且通常兩個(gè)相鄰的層完全連接(每個(gè)神經(jīng)元形成一層到每個(gè)神經(jīng)元到另一層)。最簡單的實(shí)用網(wǎng)絡(luò)有兩個(gè)輸入單元和一個(gè)輸出單元,可用于建模邏輯門。人們通常通過反向傳播來訓(xùn)練FFNN,給出網(wǎng)絡(luò)配對的“進(jìn)入的內(nèi)容”和“我們想要出來的內(nèi)容”的數(shù)據(jù)集。這就是所謂的監(jiān)督學(xué)習(xí),相對于無監(jiān)督學(xué)習(xí),我們只給它輸入并讓網(wǎng)絡(luò)填充空白。反向傳播的誤差通常是輸入和輸出之間差異的一些變化(如MSE或線性差異)。鑒于網(wǎng)絡(luò)具有足夠的隱藏的神經(jīng)元,它在理論上可以始終模擬輸入和輸出之間的關(guān)系。實(shí)際上,它們的使用受到很多限制,但它們普遍與其他網(wǎng)絡(luò)結(jié)合形成新的網(wǎng)絡(luò)。
徑向基函數(shù)(RBF)網(wǎng)絡(luò)是具有徑向基函數(shù)作為激活函數(shù)的FFNN。沒有什么更多。這并不意味著他們沒有他們的用途,但是大多數(shù)具有其他激活功能的FFNN并沒有得到他們自己的名字。這主要與在正確的時(shí)間發(fā)明它們有關(guān)。
甲的Hopfield網(wǎng)絡(luò)(HN)是每個(gè)神經(jīng)元都與其他神經(jīng)元相連的網(wǎng)絡(luò); 它是一個(gè)完全糾結(jié)的意大利面板,即使所有的節(jié)點(diǎn)都起著一切作用。每個(gè)節(jié)點(diǎn)在訓(xùn)練之前輸入,然后在訓(xùn)練期間隱藏并在之后輸出。通過將神經(jīng)元的值設(shè)置為希望的模式來訓(xùn)練網(wǎng)絡(luò),之后可以計(jì)算權(quán)重。此后重量不會(huì)改變。一旦接受過一種或多種模式的訓(xùn)練,網(wǎng)絡(luò)就會(huì)始終聚合到其中一種學(xué)習(xí)模式,因?yàn)榫W(wǎng)絡(luò)在這些狀態(tài)中僅保持穩(wěn)定。請注意,它并不總是符合所需的狀態(tài)(這不是一個(gè)可悲的不可思議的黑盒子)。它的穩(wěn)定部分歸因于訓(xùn)練期間網(wǎng)絡(luò)的總“能量”或“溫度”逐漸減少。每個(gè)神經(jīng)元都有一個(gè)可以調(diào)節(jié)到這個(gè)溫度的激活閾值,如果超過輸入的總和,神經(jīng)元會(huì)采取兩種狀態(tài)之一(通常為-1或1,有時(shí)為0或1)。更新網(wǎng)絡(luò)可以同步完成,也可以逐個(gè)完成。如果逐一更新,則創(chuàng)建一個(gè)公平的隨機(jī)序列來組織哪些細(xì)胞以什么順序更新(公平隨機(jī)是所有選項(xiàng)(n)每n項(xiàng)發(fā)生一次)。這樣你就可以知道網(wǎng)絡(luò)什么時(shí)候穩(wěn)定(完成收斂),一旦每個(gè)單元已經(jīng)更新并且沒有更改,網(wǎng)絡(luò)就會(huì)穩(wěn)定(退火)。這些網(wǎng)絡(luò)通常被稱為聯(lián)想記憶,因?yàn)樗諗康脚c輸入最相似的狀態(tài); 如果人類看到一半的桌子,我們可以對另一半進(jìn)行成像,但如果有半噪音和半桌子,這個(gè)網(wǎng)絡(luò)將會(huì)聚合到一張桌子上。
馬爾可夫鏈(MC或離散時(shí)間馬爾可夫鏈,DTMC)是BM和HN的前身。他們可以理解如下:從我現(xiàn)在的這個(gè)節(jié)點(diǎn)來看,我有多大的機(jī)會(huì)去我的鄰居節(jié)點(diǎn)?它們是無記憶的(即馬爾科夫?qū)傩裕@意味著你最終進(jìn)入的每個(gè)狀態(tài)完全取決于以前的狀態(tài)。雖然不是一個(gè)真正的神經(jīng)網(wǎng)絡(luò),但它們確實(shí)與神經(jīng)網(wǎng)絡(luò)相似,并構(gòu)成了BM和HN的理論基礎(chǔ)。MC并不總是被認(rèn)為是神經(jīng)網(wǎng)絡(luò),就像BM,RBM和HN一樣。馬爾可夫鏈并不總是完全連接。
玻爾茲曼機(jī)器(BM)與HN很相似,但是:一些神經(jīng)元被標(biāo)記為輸入神經(jīng)元,而其他神經(jīng)元?jiǎng)t被“隱藏”。輸入神經(jīng)元在完整網(wǎng)絡(luò)更新結(jié)束時(shí)變成輸出神經(jīng)元。它從隨機(jī)權(quán)重開始,通過反向傳播學(xué)習(xí),或者最近通過對比發(fā)散學(xué)習(xí)(馬爾可夫鏈被用來確定兩個(gè)信息增益之間的梯度)。與HN相比,神經(jīng)元大多具有二元激活模式。正如MC被訓(xùn)練所暗示的那樣,BM是隨機(jī)網(wǎng)絡(luò)。BM的訓(xùn)練和運(yùn)行過程與HN非常相似:將輸入神經(jīng)元設(shè)置為特定的鉗位值,之后網(wǎng)絡(luò)被釋放(它不會(huì)獲得襪子)。雖然釋放細(xì)胞可以獲得任何價(jià)值,我們反復(fù)在輸入和隱藏的神經(jīng)元之間來回。激活由全局溫度值控制,如果降低則降低電池的能量。這種較低的能量導(dǎo)致其激活模式穩(wěn)定。考慮到正確的溫度,網(wǎng)絡(luò)達(dá)到平衡。
受限玻爾茲曼機(jī)器(RBM)與BM(驚喜)非常相??似,因此也與HN類似。管理層和管理層之間最大的區(qū)別是,管理層管理是一種更好的可用方式,因?yàn)樗鼈兏芟拗啤K鼈儾粫?huì)觸發(fā) - 將每個(gè)神經(jīng)元連接到每個(gè)其他神經(jīng)元,但只將每個(gè)不同組的神經(jīng)元連接到每個(gè)其他組,因此沒有輸入神經(jīng)元直接連接到其他輸入神經(jīng)元,也沒有隱藏到隱藏連接。RBM可以像扭曲一樣被FFNNs訓(xùn)練:不是向前傳遞數(shù)據(jù)然后向后傳播,而是向前傳遞數(shù)據(jù),然后向后傳遞數(shù)據(jù)(返回到第一層)。之后,您將訓(xùn)練前后傳播。
自動(dòng)編碼器(AE)有點(diǎn)類似于FFNN,因?yàn)锳E更像是FFNN的不同用途,而不是根本不同的架構(gòu)。自動(dòng)編碼器的基本思想是自動(dòng)編碼信息(如壓縮,不加密),因此名稱。整個(gè)網(wǎng)絡(luò)總是類似于沙漏形狀,隱藏層比輸入和輸出層小。AE也總是在中間層周圍是對稱的(一個(gè)或兩個(gè)取決于偶數(shù)層或奇數(shù)層)。最小的層幾乎總是在中間,信息被壓縮得最多的地方(網(wǎng)絡(luò)的阻塞點(diǎn))。到中間的所有東西都被稱為編碼部分,解碼和中間(驚喜)代碼之后的所有東西都被稱為編碼部分。人們可以通過反饋傳播訓(xùn)練他們,通過喂養(yǎng)輸入并將錯(cuò)誤設(shè)置為輸入和輸出之間的差異。當(dāng)涉及權(quán)重時(shí),AE也可以對稱地構(gòu)建,因此編碼權(quán)重與解碼權(quán)重相同。
稀疏自動(dòng)編碼器(SAE)與AE相反。我們試圖在更多的空間中對信息進(jìn)行編碼,而不是通過教授網(wǎng)絡(luò)來代表一堆信息在更少的“空間”或節(jié)點(diǎn)中。因此,不是網(wǎng)絡(luò)在中間收斂,而是擴(kuò)大到輸入大小,我們炸掉了中間。這些類型的網(wǎng)絡(luò)可用于從數(shù)據(jù)集中提取許多小特征。如果有人像AE一樣訓(xùn)練SAE,幾乎在所有情況下,最終都會(huì)有一個(gè)非常無用的身份網(wǎng)絡(luò)(就像出現(xiàn)的那樣,沒有任何轉(zhuǎn)換或分解)。為了防止這種情況,我們不是反饋輸入,而是反饋輸入加稀疏驅(qū)動(dòng)程序。這個(gè)稀疏驅(qū)動(dòng)程序可以采用閾值過濾器的形式,其中只有特定的錯(cuò)誤被傳回并訓(xùn)練,另一個(gè)錯(cuò)誤將是“無關(guān)緊要”,并設(shè)置為零。在某種程度上,這類似于峰值神經(jīng)網(wǎng)絡(luò),并不是所有的神經(jīng)元始終都在發(fā)射(并且點(diǎn)的生物合理性得分)。
變分自編碼器(VAE)具有與AE相同的體系結(jié)構(gòu),但是“教授”了其他內(nèi)容:輸入樣本的近似概率分布。這有點(diǎn)回歸根源,因?yàn)樗鼈兣cBM和RBM更密切相關(guān)。然而,他們確實(shí)依賴貝葉斯數(shù)學(xué)有關(guān)概率推理和獨(dú)立性,以及實(shí)現(xiàn)這種不同表示的重新參數(shù)化技巧。推理和獨(dú)立部分直觀地理解,但他們依賴于有些復(fù)雜的數(shù)學(xué)。基本要?dú)w結(jié)為:考慮到影響。如果一件事發(fā)生在一個(gè)地方,而其他地方發(fā)生了其他事情,它們不一定是相關(guān)的。如果它們不相關(guān),那么錯(cuò)誤傳播應(yīng)該考慮這一點(diǎn)。這是一個(gè)有用的方法,因?yàn)樯窠?jīng)網(wǎng)絡(luò)是大圖(某種程度上),
去噪自動(dòng)編碼器(DAE)是我們不僅僅輸入輸入數(shù)據(jù)的AE,但是我們?yōu)檩斎霐?shù)據(jù)提供了噪聲(如使圖像更加粗糙)。我們以相同的方式計(jì)算誤差,所以網(wǎng)絡(luò)的輸出與沒有噪聲的原始輸入進(jìn)行比較。這鼓勵(lì)網(wǎng)絡(luò)不去學(xué)習(xí)細(xì)節(jié),而是學(xué)習(xí)更廣泛的功能,因?yàn)閷W(xué)習(xí)較小的功能通常會(huì)因?yàn)樵肼暡粩嘧兓兊谩板e(cuò)誤”。
深度信念網(wǎng)絡(luò)(DBN) 是主要針對RBM或VAE的堆疊體系結(jié)構(gòu)的名稱。這些網(wǎng)絡(luò)已被證明是有效的可堆疊堆棧,其中每個(gè)AE或RBM只需要學(xué)習(xí)編碼以前的網(wǎng)絡(luò)。這種技術(shù)也被稱為貪婪訓(xùn)練,其中貪婪意味著使局部最優(yōu)解得到一個(gè)體面的但可能不是最佳答案。可以通過對比分歧或反向傳播來訓(xùn)練DBN,并學(xué)習(xí)如同常規(guī)RBM或VAE一樣將數(shù)據(jù)表示為概率模型。一旦通過無監(jiān)督學(xué)習(xí)訓(xùn)練或融合到(更多)穩(wěn)定狀態(tài),模型可用于生成新數(shù)據(jù)。如果采用對比分歧進(jìn)行訓(xùn)練,它甚至可以對現(xiàn)有數(shù)據(jù)進(jìn)行分類,因?yàn)橐呀?jīng)教會(huì)神經(jīng)元尋找不同的特征。
卷積神經(jīng)網(wǎng)絡(luò)(CNN或深度卷積神經(jīng)網(wǎng)絡(luò),DCNN)與大多數(shù)其他網(wǎng)絡(luò)完全不同。它們主要用于圖像處理,但也可用于其他類型的輸入,如音頻。一個(gè)典型的用例細(xì)胞神經(jīng)網(wǎng)絡(luò)是你養(yǎng)活網(wǎng)絡(luò)圖像和網(wǎng)絡(luò)分類的數(shù)據(jù),例如,如果你給它一個(gè)貓的圖片和“狗”,當(dāng)你給它一個(gè)犬的圖像輸出“貓”。CNN傾向于以輸入“掃描儀”開始,該輸入“掃描儀”不是一次性解析所有訓(xùn)練數(shù)據(jù)。例如,要輸入200 x 200像素的圖像,您不需要具有40 000個(gè)節(jié)點(diǎn)的圖層。相反,您創(chuàng)建一個(gè)掃描輸入圖層,例如20 x 20,您輸入圖像的前20 x 20像素(通常從左上角開始)。一旦您通過了該輸入(并可能將其用于訓(xùn)練),您就可以為其提供接下來的20 x 20像素:將掃描儀向右移動(dòng)一個(gè)像素。請注意,您不會(huì)將輸入的20像素(或任何掃描儀寬度)移動(dòng)過來,您不會(huì)將圖像解剖為20 x 20的塊,而是您正在爬過它。然后,這個(gè)輸入數(shù)據(jù)通過卷積層而不是普通層傳送,其中并非所有節(jié)點(diǎn)都連接到所有節(jié)點(diǎn)。每個(gè)節(jié)點(diǎn)只關(guān)注緊密相鄰的單元(關(guān)閉程度取決于實(shí)現(xiàn),但通常不會(huì)超過幾個(gè))。這些卷積層也傾向于收縮,因?yàn)樗鼈冏兊酶睿饕奢斎氲娜菀渍蜃樱ㄋ?0可能會(huì)轉(zhuǎn)到隨后的5層10的層)。二的冪非常普遍這里使用,因?yàn)樗鼈兛梢酝ㄟ^定義被干凈和完全分割:32,16,8,4,2,1。除了這些卷積層,它們也常常設(shè)有匯集層。池化是過濾細(xì)節(jié)的一種方式:常見的池化技術(shù)是最大池化,在這里我們?nèi)? x 2像素并傳遞最多量的紅色像素。要將CNN應(yīng)用于音頻,您基本上需要逐段輸入輸入音頻波形和英寸長度。現(xiàn)實(shí)世界的CNN實(shí)現(xiàn)通常會(huì)將FFNN粘貼到最后以進(jìn)一步處理數(shù)據(jù),這允許高度非線性的抽象。這些網(wǎng)絡(luò)被稱為DCNN,但這兩個(gè)網(wǎng)絡(luò)之間的名稱和縮寫經(jīng)常互換使用。現(xiàn)實(shí)世界的CNN實(shí)現(xiàn)通常會(huì)將FFNN粘貼到最后以進(jìn)一步處理數(shù)據(jù),這允許高度非線性的抽象。這些網(wǎng)絡(luò)被稱為DCNN,但這兩個(gè)網(wǎng)絡(luò)之間的名稱和縮寫經(jīng)常互換使用。現(xiàn)實(shí)世界的CNN實(shí)現(xiàn)通常會(huì)將FFNN粘貼到最后以進(jìn)一步處理數(shù)據(jù),這允許高度非線性的抽象。這些網(wǎng)絡(luò)被稱為DCNN,但這兩個(gè)網(wǎng)絡(luò)之間的名稱和縮寫經(jīng)常互換使用。
解卷積網(wǎng)絡(luò)(DN),也稱為反向圖形網(wǎng)絡(luò)(IGN),是反卷積神經(jīng)網(wǎng)絡(luò)。想象一下,給網(wǎng)絡(luò)喂“貓”這個(gè)詞,并通過比較它產(chǎn)生的真實(shí)照片與貓一起訓(xùn)練它來產(chǎn)生類似貓的照片。DNN可以像常規(guī)的CNN一樣與FFNN結(jié)合使用,但是這是關(guān)于繪制線條以提供新縮寫的點(diǎn)。他們可能被稱為深層去卷積神經(jīng)網(wǎng)絡(luò),但你可以爭辯說,當(dāng)你將FFNN粘貼到DNN的后面和前面時(shí),你就有了另一個(gè)值得一個(gè)新名字的架構(gòu)。請注意,在大多數(shù)應(yīng)用程序中,實(shí)際上不會(huì)向網(wǎng)絡(luò)輸入類似文本的輸入,更可能是二進(jìn)制分類輸入向量。認(rèn)為<0,1>是貓,<1,0>是狗,<1,1>是貓和狗。
深卷積逆向圖形網(wǎng)絡(luò)(DCIGN)的名稱有些誤導(dǎo),因?yàn)樗鼈儗?shí)際上是VAE,但是針對各自的編碼器和解碼器使用了CNN和DNN。這些網(wǎng)絡(luò)試圖在編碼中將“特征”建模為概率,以便它可以學(xué)習(xí)與貓和狗一起制作一張圖片,而且只能在兩張圖片中看到其中的一張。同樣,你可以喂它一張貓的照片,讓你的鄰居的惱人的狗在上面,并要求它把狗取出,而不用做這樣的操作。演示表明,這些網(wǎng)絡(luò)還可以學(xué)習(xí)如何對圖像進(jìn)行復(fù)雜轉(zhuǎn)換,例如更改光源或3D對象的旋轉(zhuǎn)。這些網(wǎng)絡(luò)傾向于用反向傳播進(jìn)行訓(xùn)練。
生成敵對網(wǎng)絡(luò)(GAN)來自不同品種的網(wǎng)絡(luò),他們是雙胞胎:兩個(gè)網(wǎng)絡(luò)一起工作。GAN由任何兩個(gè)網(wǎng)絡(luò)組成(盡管通常是FF和CNN的組合),其中一個(gè)負(fù)責(zé)生成內(nèi)容,另一個(gè)負(fù)責(zé)判斷內(nèi)容。鑒別網(wǎng)絡(luò)接收來自生成網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)或生成的內(nèi)容。識別網(wǎng)絡(luò)如何能夠正確預(yù)測數(shù)據(jù)源然后用作生成網(wǎng)絡(luò)的錯(cuò)誤的一部分。這就形成了一種競爭形式,鑒別者在區(qū)分實(shí)際數(shù)據(jù)和生成數(shù)據(jù)方面越來越好,而生成者正在學(xué)習(xí)對鑒別器的預(yù)測能力降低。這部分工作的部分原因是,即使非常復(fù)雜的類噪音模式最終可預(yù)測,但生成的內(nèi)容與輸入數(shù)據(jù)相似的內(nèi)容更難以區(qū)分。GAN可能很難訓(xùn)練,因?yàn)槟悴粌H需要訓(xùn)練兩個(gè)網(wǎng)絡(luò)(這兩個(gè)網(wǎng)絡(luò)都會(huì)造成它自己的問題),但它們的動(dòng)態(tài)也需要平衡。如果預(yù)測或生成與另一個(gè)相比變得更好,GAN將不會(huì)收斂,因?yàn)榇嬖趦?nèi)在的分歧。
遞歸神經(jīng)網(wǎng)絡(luò)(RNN)是時(shí)間扭曲的FFNN:他們不是無國籍的; 他們之間有通過連接,通過時(shí)間連接。神經(jīng)元的信息不僅來自上一層,而且來自前一層的信息。這意味著您輸入飼料和訓(xùn)練網(wǎng)絡(luò)的順序很重要:與喂養(yǎng)“餅干”和“牛奶”相比,喂養(yǎng)它“牛奶”然后“餅干”可能會(huì)產(chǎn)生不同的結(jié)果。RNN的一個(gè)大問題是消失(或爆炸)梯度問題,根據(jù)所使用的激活函數(shù),隨著時(shí)間的推移信息會(huì)迅速丟失,就像非常深的FFNN深度丟失信息一樣。直觀地說,這不會(huì)成為一個(gè)問題,因?yàn)檫@些只是權(quán)重而不是神經(jīng)元狀態(tài),但時(shí)間間隔的權(quán)重實(shí)際上是來自過去的信息的存儲(chǔ)位置; 如果重量達(dá)到0或1 000 000的值,以前的狀態(tài)將不會(huì)提供很多信息。RNN原則上可以用于很多領(lǐng)域,因?yàn)榇蠖鄶?shù)形式的數(shù)據(jù)實(shí)際上沒有時(shí)間線(即,不同于聲音或視頻)可以表示為序列。一張圖片或一串文本可以一次輸入一個(gè)像素或字符,因此時(shí)間相關(guān)的權(quán)重用于序列中之前的內(nèi)容,而不是實(shí)際上與之前X秒內(nèi)發(fā)生的內(nèi)容相關(guān)。一般而言,經(jīng)常性網(wǎng)絡(luò)是推進(jìn)或完成信息的良好選擇,例如自動(dòng)完成。一張圖片或一串文本可以一次輸入一個(gè)像素或字符,因此時(shí)間相關(guān)的權(quán)重用于序列中之前的內(nèi)容,而不是實(shí)際上與之前X秒內(nèi)發(fā)生的內(nèi)容相關(guān)。一般而言,經(jīng)常性網(wǎng)絡(luò)是推進(jìn)或完成信息的良好選擇,例如自動(dòng)完成。一張圖片或一串文本可以一次輸入一個(gè)像素或字符,因此時(shí)間相關(guān)的權(quán)重用于序列中之前的內(nèi)容,而不是實(shí)際上與之前X秒內(nèi)發(fā)生的內(nèi)容相關(guān)。一般而言,經(jīng)常性網(wǎng)絡(luò)是推進(jìn)或完成信息的良好選擇,例如自動(dòng)完成。
長期/短期記憶(LSTM)網(wǎng)絡(luò)試圖通過引入門和明確定義的存儲(chǔ)器單元來對抗消失/爆炸梯度問題。這些靈感主要來自電路,而不是生物學(xué)。每個(gè)神經(jīng)元都有一個(gè)存儲(chǔ)單元和三個(gè)門:輸入,輸出和忘記。這些門的功能是通過停止或允許信息流來保護(hù)信息。輸入門決定了來自上一層的多少信息存儲(chǔ)在單元中。輸出層在另一端獲取作業(yè),并確定下一層有多少知道該單元的狀態(tài)。忘記門起初看起來像是一個(gè)奇怪的包容,但有時(shí)候忘記是很好的:如果它正在學(xué)習(xí)一本書并開始新的一章,那么網(wǎng)絡(luò)可能需要忘記前一章中的一些字符。已經(jīng)證明LSTM能夠?qū)W習(xí)復(fù)雜的序列,例如像莎士比亞的寫作或者創(chuàng)作原始音樂。請注意,這些門中的每一個(gè)都對前一個(gè)神經(jīng)元中的一個(gè)單元具有權(quán)重,因此它們通常需要更多資源才能運(yùn)行。
門控復(fù)發(fā)單位(GRU)在LSTMs上略有差異。他們有一個(gè)門少一些,連接方式稍有不同:他們有一個(gè)更新門,而不是輸入,輸出和忘記門。這個(gè)更新門決定了從最后一個(gè)狀態(tài)開始保留多少信息以及從上一個(gè)層開始輸入多少信息。復(fù)位門的功能與LSTM的忘記門非常相似,但位置稍有不同。他們總是發(fā)出完整的狀態(tài),他們沒有輸出門。在大多數(shù)情況下,它們的功能與LSTM非常相似,最大的不同之處在于GRU稍快并且更容易運(yùn)行(但表現(xiàn)力稍差)。在實(shí)踐中,這些往往會(huì)互相抵消,因?yàn)槟阈枰粋€(gè)更大的網(wǎng)絡(luò)來重新獲得一些表現(xiàn)力,然后消除表現(xiàn)的好處。
神經(jīng)圖靈機(jī)(NTM) 可以理解為LSTM的一種抽象,也是一種嘗試使用非黑箱神經(jīng)網(wǎng)絡(luò)的方法(并且讓我們了解那里正在發(fā)生的事情)。不是直接將存儲(chǔ)器單元編碼到神經(jīng)元中,而是將存儲(chǔ)器分開。它試圖將常規(guī)數(shù)字存儲(chǔ)的效率和永久性與神經(jīng)網(wǎng)絡(luò)的效率和表現(xiàn)力結(jié)合起來。這個(gè)想法是有一個(gè)內(nèi)容尋址存儲(chǔ)庫和一個(gè)可以讀寫的神經(jīng)網(wǎng)絡(luò)。神經(jīng)圖靈機(jī)中的“圖靈”來自它們的圖靈完整性:根據(jù)讀取的內(nèi)容讀取和寫入并改變狀態(tài)的能力意味著它可以代表通用圖靈機(jī)可以表示的任何東西。
雙向遞歸神經(jīng)網(wǎng)絡(luò),雙向長期/短期記憶網(wǎng)絡(luò)和雙向門控循環(huán)單元(分別為BiRNN,BiLSTM和BiGRU)不會(huì)顯示在圖表上,因?yàn)樗鼈兛雌饋砼c單向同行完全一樣。不同之處在于,這些網(wǎng)絡(luò)不僅與過去相連,而且與未來相連。舉例來說,單向LSTMs可能會(huì)被訓(xùn)練成通過逐字地輸入字母來預(yù)測單詞“fish”,其中通過時(shí)間的循環(huán)連接記住最后一個(gè)值。一個(gè)BiLSTM也將被送入下一個(gè)順序中的下一個(gè)字母,讓它訪問未來的信息。這訓(xùn)練網(wǎng)絡(luò)來填補(bǔ)空白,而不是推進(jìn)信息,所以不是在邊緣上展開圖像,而是在圖像的中間填充一個(gè)洞。
深度剩余網(wǎng)絡(luò)(DRN)是非常深的FFNN,具有額外的連接,將輸入從一個(gè)層傳遞到后一層(通常是2到5層)以及下一層。而不是試圖找到一個(gè)解決方案來將某些輸入映射到某個(gè)輸出,例如5層,網(wǎng)絡(luò)就會(huì)強(qiáng)制學(xué)習(xí)將某些輸入映射到某些輸出+某些輸入。基本上,它為解決方案增加了一個(gè)標(biāo)識,將舊的輸入傳送到新的層次。已經(jīng)證明,這些網(wǎng)絡(luò)在學(xué)習(xí)深達(dá)150層的模式方面非常有效,遠(yuǎn)遠(yuǎn)超過人們可以期望訓(xùn)練的常規(guī)2至5層。然而,已經(jīng)證明,這些網(wǎng)絡(luò)本質(zhì)上只是RNN而沒有明確的基于時(shí)間的構(gòu)造,并且它們通常與沒有門的LSTM相比較。
回聲狀態(tài)網(wǎng)絡(luò)(ESN)是另一種不同類型的(經(jīng)常性)網(wǎng)絡(luò)。這個(gè)人通過神經(jīng)元之間的隨機(jī)連接(即沒有組織成整齊的層)來區(qū)別于他人,并且他們受到不同的訓(xùn)練。我們提供輸入,轉(zhuǎn)發(fā)它并更新神經(jīng)元一段時(shí)間,然后觀察隨著時(shí)間的推移輸出,而不是喂養(yǎng)輸入和反向傳播錯(cuò)誤。輸入層和輸出層具有輕微非常規(guī)的作用,因?yàn)檩斎雽佑糜趩?dòng)網(wǎng)絡(luò),輸出層充當(dāng)隨時(shí)間展開的激活模式的觀察者。在訓(xùn)練期間,只有觀察者和隱藏單位(的湯)之間的聯(lián)系被改變。
極限學(xué)習(xí)機(jī)(ELM)基本上是FFNN,但具有隨機(jī)連接。它們看起來與LSM和ESN非常相似,但它們不是經(jīng)常性的,也不是尖銳的。他們也不使用反向傳播。相反,他們從隨機(jī)權(quán)重開始,根據(jù)最小二乘法擬合(所有函數(shù)的最小誤差),在一個(gè)步驟中訓(xùn)練權(quán)重。這導(dǎo)致了一個(gè)表達(dá)性較差的網(wǎng)絡(luò),但它也比反向傳播快得多。
液態(tài)機(jī)器(LSM)是類似的湯,看起來很像ESN。真正的區(qū)別在于LSMs是一種尖峰神經(jīng)網(wǎng)絡(luò):乙狀結(jié)腸激活被閾值函數(shù)替代,每個(gè)神經(jīng)元也是一個(gè)累積的記憶細(xì)胞。所以當(dāng)更新神經(jīng)元時(shí),該值不會(huì)被設(shè)置為鄰居的總和,而是被添加到自身中。一旦達(dá)到閾值,它釋放其能量給其他神經(jīng)元。這會(huì)產(chǎn)生一個(gè)像圖案一樣的尖峰,在一段時(shí)間內(nèi)沒有任何事情發(fā)生,直到突然達(dá)到閾值。
支持向量機(jī)(SVM)找到分類問題的最佳解決方案。通常他們只能對線性可分?jǐn)?shù)據(jù)進(jìn)行分類; 說找出哪些圖像是加菲貓和哪些是史努比,其他任何結(jié)果都不可能。在訓(xùn)練過程中,SVM可以被認(rèn)為是將所有數(shù)據(jù)(Garfields和Snoopys)繪制在圖形上(2D),并計(jì)算出如何在數(shù)據(jù)點(diǎn)之間繪制一條線。這條線將分開數(shù)據(jù),以便所有的Snoopys都在一邊,Garfields在另一邊。這條線以這樣的方式移動(dòng)到最佳線,使得數(shù)據(jù)點(diǎn)和線之間的邊緣在兩側(cè)最大化。對新數(shù)據(jù)進(jìn)行分類可以通過繪制該圖上的一個(gè)點(diǎn)來完成,并簡單地查看該線的哪一側(cè)(史努比側(cè)或加菲爾德側(cè))。使用內(nèi)核技巧,可以教他們對n維數(shù)據(jù)進(jìn)行分類。這需要在三維圖中繪制點(diǎn),以便區(qū)分史努比,加菲貓和西蒙的貓,甚至可以區(qū)分更多的卡通角色。SVM并不總是被認(rèn)為是神經(jīng)網(wǎng)絡(luò)。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/41778.html
摘要:較大池化一個(gè)卷積神經(jīng)網(wǎng)絡(luò)的典型架構(gòu)卷積神經(jīng)網(wǎng)絡(luò)的典型架構(gòu)我們已經(jīng)討論過卷積層用表示和池化層用表示只是一個(gè)被應(yīng)用的非線性特征,類似于神經(jīng)網(wǎng)絡(luò)。 這是作者在 Medium 上介紹神經(jīng)網(wǎng)絡(luò)系列文章中的一篇,他在這里詳細(xì)介紹了卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)在圖像識別、視頻識別、推薦系統(tǒng)以及自然語言處理中都有很廣的應(yīng)用。如果想瀏覽該系列文章,可點(diǎn)擊閱讀原文查看原文網(wǎng)址。跟神經(jīng)網(wǎng)絡(luò)一樣,卷積神經(jīng)網(wǎng)絡(luò)由神經(jīng)元...
摘要:摘要本文著重介紹了深度學(xué)習(xí)的一些關(guān)鍵術(shù)語,其中包括生物神經(jīng)元,多層感知器,前饋神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)最近取得了令人吃驚的成就。人工神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)架構(gòu)最初是由深度學(xué)習(xí)的腦神經(jīng)尤其是神經(jīng)元所啟發(fā)的。 摘要: 本文著重介紹了深度學(xué)習(xí)的一些關(guān)鍵術(shù)語,其中包括生物神經(jīng)元,多層感知器(MLP),前饋神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)。對于初學(xué)者來說,掌握它們可以防止在學(xué)習(xí)請教時(shí)的尷尬~ 深度學(xué)習(xí)已...
摘要:要學(xué)習(xí)深度學(xué)習(xí),那么首先要熟悉神經(jīng)網(wǎng)絡(luò),簡稱的一些基本概念。網(wǎng)絡(luò)徑向基函數(shù)網(wǎng)絡(luò)是一種單隱層前饋神經(jīng)網(wǎng)絡(luò),它使用徑向基函數(shù)作為隱層神經(jīng)元激活函數(shù),而輸出層則是對隱層神經(jīng)元輸出的線性組合。 閱讀目錄1. 神經(jīng)元模型2. 感知機(jī)和神經(jīng)網(wǎng)絡(luò)3. 誤差逆?zhèn)鞑ニ惴?. 常見的神經(jīng)網(wǎng)絡(luò)模型5. 深度學(xué)習(xí)6. 參考內(nèi)容目前,深度學(xué)習(xí)(Deep Learning,簡稱DL)在算法領(lǐng)域可謂是大紅大紫,現(xiàn)在不只是...
摘要:近日,發(fā)布了其關(guān)于神經(jīng)網(wǎng)絡(luò)可解釋性的研究成果,他們通過刪除網(wǎng)絡(luò)中的某些神經(jīng)元組,從而判定其對于整個(gè)網(wǎng)絡(luò)是否重要。泛化性良好的網(wǎng)絡(luò)對于刪除神經(jīng)元的操作更具適應(yīng)性。通過刪除單個(gè)神經(jīng)元和神經(jīng)元組,我們測量了破壞網(wǎng)絡(luò)對性能的影響。 深度學(xué)習(xí)算法近年來取得了長足的進(jìn)展,也給整個(gè)人工智能領(lǐng)域送上了風(fēng)口。但深度學(xué)習(xí)系統(tǒng)中分類器和特征模塊都是自學(xué)習(xí)的,神經(jīng)網(wǎng)絡(luò)的可解釋性成為困擾研究者的一個(gè)問題,人們常常將其...
閱讀 2642·2019-08-30 15:52
閱讀 3589·2019-08-29 17:02
閱讀 1835·2019-08-29 13:00
閱讀 910·2019-08-29 11:07
閱讀 3228·2019-08-27 10:53
閱讀 1762·2019-08-26 13:43
閱讀 1004·2019-08-26 10:22
閱讀 1307·2019-08-23 18:06