摘要:第二次卷積也是,數(shù)目為。兩次卷積后得到的和的相同,更新,進(jìn)行上述循環(huán),循環(huán)自定義次數(shù),進(jìn)入解碼部分。所以需要進(jìn)行一次。多次更新將最新的,輸入到單層神經(jīng)網(wǎng)絡(luò)中,輸出層維度為譯文有效單詞總數(shù)更新備注借鑒出處
一.從InputEmbedding和PositionalEnocding說(shuō)起
1.將原文的所有單詞匯總統(tǒng)計(jì)頻率,刪除低頻詞匯(比如出現(xiàn)次數(shù)小于20次的統(tǒng)一
定義為’
2.這樣,我們針對(duì)InputEmbedding,每句話就是一個(gè)對(duì)應(yīng)的矩陣,該矩陣指定長(zhǎng)度,例如‘中國(guó)人有中國(guó)夢(mèng)’,對(duì)應(yīng)矩陣!(這里定義矩陣行數(shù)為10,100可以理解為結(jié)束符,不足的在后面補(bǔ)0)圖片描述
3.PositionEncoding
這里的PositionEncoding主要是為了保留句子的位置信息。其矩陣shape和Inputembedding一樣。對(duì)于矩陣matPosition的每一行,第0,2,4,6,...等偶數(shù)列上的值用sin()函數(shù)激 活,第1,3,5,。。。等奇數(shù)列的值用cos()函數(shù)激活,將此矩陣定義為mapX。
4.這里,將兩個(gè)矩陣相加,得到matEnc=matP+matX。然后matEnc進(jìn)入模型編碼部分的循環(huán),即Figure1中左邊紅色框內(nèi)部分,每個(gè)循環(huán)單元又分為4個(gè)小部分:multi-head attention, add&norm, feedForward, add&norm;
二.Encoder
1.Multi-head attention
(1)由三個(gè)輸入,分別為V,K,Q,此處V=K=Q=matEnc(后面會(huì)經(jīng)過(guò)變化變的不一樣)
(2)首先分別對(duì)V,K,Q三者分別進(jìn)行線性變換,即將三者分別輸入到三個(gè)單層神經(jīng)網(wǎng)絡(luò)層,激活函數(shù)選擇relu,輸出新的V,K,Q(三者shape都和原來(lái)shape相同,即經(jīng)過(guò)線性變換時(shí)輸出維度和輸入維度相同);
(3)然后將Q在最后一維上進(jìn)行切分為num_heads(假設(shè)為8,必須可以被matENC整除)段,然后對(duì)切分完的矩陣在axis=0維上進(jìn)行concat鏈接起來(lái);對(duì)V和K都進(jìn)行和Q一樣的操作;操作后的矩陣記為Q_,K_,V_;如圖
(4)之后將Q_,K_.T進(jìn)行想乘和Scale,得到的output為[8.10,10],執(zhí)行output = softmax(output),然后將更新后的output想乘V_,得到再次更新后的output矩陣[8,10,64],然后將得到的output在0維上切分為8段,在2維上合并為[10,512]原始shape樣式。
2.add&norm
add實(shí)際上是為了避免梯度消失,也就是曾經(jīng)的殘差網(wǎng)絡(luò)解決辦法:output=output+Q;
norm是標(biāo)準(zhǔn)化矯正一次,在output對(duì)最后一維計(jì)算均值和方差,用output減去均值除以方差+spsilon得值更新為output,然后變量gamma*output+變量beta
3.feed forward
(1)對(duì)output進(jìn)行兩次卷積,第一次卷積荷11,數(shù)目為詞對(duì)應(yīng)向量的維度。第二次卷積也是11,數(shù)目為N。
(2)兩次卷積后得到的output和matEnc 的shape相同,更新matEnc = output,進(jìn)行上述循環(huán),循環(huán)自定義次數(shù),進(jìn)入解碼部分。
三.decoder
1.InputEmbedding和Positionembedding相同。
2.進(jìn)入解碼循環(huán),這里的Masked multi-head attention: 和編碼部分的multi-head attention類似,但是多了一 次masked,因?yàn)樵诮獯a部分,解碼的時(shí)候時(shí)從左到右依次解碼的,當(dāng)解出第一個(gè)字的時(shí)候,第一個(gè)字只能與第一個(gè)字計(jì)算相關(guān)性,當(dāng)解出第二個(gè)字的時(shí)候,只能計(jì)算出第二個(gè)字與第一個(gè)字和第二個(gè)字的相關(guān)性,。。。;所以需要linalg.LinearOperatorLowerTriangular進(jìn)行一次mask。
3.在解碼中,add&norm,F(xiàn)eed forward和編碼相同,其中multi-head attention:同編碼部分,但是Q和K,V不再相同,Q=outputs,K=V=matEnc。
4.多次更新
5.Linear: 將最新的outputs,輸入到單層神經(jīng)網(wǎng)絡(luò)中,輸出層維度為“譯文”有效單詞總數(shù);更新outputs
備注:借鑒出處https://zhuanlan.zhihu.com/p/...
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/45043.html
摘要:在這項(xiàng)工作中,我們提出了自注意力生成對(duì)抗網(wǎng)絡(luò),它將自注意力機(jī)制引入到卷積中。越高,表示圖像質(zhì)量越好。表將所提出的與較先進(jìn)模型進(jìn)行比較,任務(wù)是上的類別條件圖像生成。 圖像合成(Image synthesis)是計(jì)算機(jī)視覺(jué)中的一個(gè)重要問(wèn)題。隨著生成對(duì)抗網(wǎng)絡(luò)(GAN)的出現(xiàn),這個(gè)方向取得了顯著進(jìn)展。基于深度卷積網(wǎng)絡(luò)的GAN尤其成功。但是,通過(guò)仔細(xì)檢查這些模型生成的樣本,可以觀察到,在ImageNe...
閱讀 1357·2021-11-24 09:39
閱讀 1346·2021-11-04 16:12
閱讀 2686·2021-09-24 09:47
閱讀 3337·2021-09-01 10:50
閱讀 1477·2019-08-30 15:55
閱讀 1423·2019-08-30 15:43
閱讀 642·2019-08-30 11:08
閱讀 3578·2019-08-23 18:33