深度學(xué)習(xí)self-attention流程詳解（qkv）

BDEEFE 發(fā)布于2019-07-31 11:21 / 1966人閱讀

摘要：第二次卷積也是，數(shù)目為。兩次卷積后得到的和的相同，更新，進(jìn)行上述循環(huán)，循環(huán)自定義次數(shù)，進(jìn)入解碼部分。所以需要進(jìn)行一次。多次更新將最新的，輸入到單層神經(jīng)網(wǎng)絡(luò)中，輸出層維度為譯文有效單詞總數(shù)更新備注借鑒出處

一.從InputEmbedding和PositionalEnocding說(shuō)起
1.將原文的所有單詞匯總統(tǒng)計(jì)頻率，刪除低頻詞匯（比如出現(xiàn)次數(shù)小于20次的統(tǒng)一
定義為’’）；此時(shí)總共選出了假設(shè)10000個(gè)單詞，則用數(shù)字編號(hào)為0~9999，一一對(duì)應(yīng)，定義該對(duì)應(yīng)表為word2num；然后用xaviers方法生成隨機(jī)矩陣Matrix ：10000行N列（10000行是確定的，對(duì)應(yīng)10000個(gè)單詞，N列自定義，常用N= 512，但訓(xùn)練會(huì)非常耗資源，親測(cè)128足夠了），我們定義為矩陣matX

2.這樣，我們針對(duì)InputEmbedding，每句話就是一個(gè)對(duì)應(yīng)的矩陣，該矩陣指定長(zhǎng)度，例如‘中國(guó)人有中國(guó)夢(mèng)’，對(duì)應(yīng)矩陣!（這里定義矩陣行數(shù)為10，100可以理解為結(jié)束符，不足的在后面補(bǔ)0）圖片描述
3.PositionEncoding
這里的PositionEncoding主要是為了保留句子的位置信息。其矩陣shape和Inputembedding一樣。對(duì)于矩陣matPosition的每一行，第0，2，4，6,...等偶數(shù)列上的值用sin()函數(shù)激活，第1，3，5，。。。等奇數(shù)列的值用cos()函數(shù)激活，將此矩陣定義為mapX。

4.這里,將兩個(gè)矩陣相加，得到matEnc=matP+matX。然后matEnc進(jìn)入模型編碼部分的循環(huán)，即Figure1中左邊紅色框內(nèi)部分，每個(gè)循環(huán)單元又分為4個(gè)小部分：multi-head attention, add&norm, feedForward, add&norm；
二.Encoder

1.Multi-head attention
（1）由三個(gè)輸入，分別為V，K，Q，此處V=K=Q=matEnc（后面會(huì)經(jīng)過(guò)變化變的不一樣）
（2）首先分別對(duì)V，K，Q三者分別進(jìn)行線性變換，即將三者分別輸入到三個(gè)單層神經(jīng)網(wǎng)絡(luò)層，激活函數(shù)選擇relu，輸出新的V，K，Q（三者shape都和原來(lái)shape相同，即經(jīng)過(guò)線性變換時(shí)輸出維度和輸入維度相同）；
（3）然后將Q在最后一維上進(jìn)行切分為num_heads(假設(shè)為8,必須可以被matENC整除)段，然后對(duì)切分完的矩陣在axis=0維上進(jìn)行concat鏈接起來(lái)；對(duì)V和K都進(jìn)行和Q一樣的操作；操作后的矩陣記為Q_,K_,V_；如圖
（4）之后將Q_,K_.T進(jìn)行想乘和Scale，得到的output為[8.10,10],執(zhí)行output = softmax(output),然后將更新后的output想乘V_,得到再次更新后的output矩陣[8,10,64]，然后將得到的output在0維上切分為8段，在2維上合并為[10，512]原始shape樣式。
2.add&norm
add實(shí)際上是為了避免梯度消失，也就是曾經(jīng)的殘差網(wǎng)絡(luò)解決辦法：output=output+Q；
norm是標(biāo)準(zhǔn)化矯正一次，在output對(duì)最后一維計(jì)算均值和方差，用output減去均值除以方差+spsilon得值更新為output，然后變量gamma*output+變量beta

3.feed forward
（1）對(duì)output進(jìn)行兩次卷積，第一次卷積荷11，數(shù)目為詞對(duì)應(yīng)向量的維度。第二次卷積也是11，數(shù)目為N。
（2）兩次卷積后得到的output和matEnc 的shape相同，更新matEnc = output，進(jìn)行上述循環(huán)，循環(huán)自定義次數(shù)，進(jìn)入解碼部分。
三.decoder
1.InputEmbedding和Positionembedding相同。
2.進(jìn)入解碼循環(huán)，這里的Masked multi-head attention: 和編碼部分的multi-head attention類似，但是多了一次masked，因?yàn)樵诮獯a部分，解碼的時(shí)候時(shí)從左到右依次解碼的，當(dāng)解出第一個(gè)字的時(shí)候，第一個(gè)字只能與第一個(gè)字計(jì)算相關(guān)性，當(dāng)解出第二個(gè)字的時(shí)候，只能計(jì)算出第二個(gè)字與第一個(gè)字和第二個(gè)字的相關(guān)性，。。。；所以需要linalg.LinearOperatorLowerTriangular進(jìn)行一次mask。

3.在解碼中，add&norm，F(xiàn)eed forward和編碼相同，其中multi-head attention：同編碼部分，但是Q和K，V不再相同，Q=outputs，K=V=matEnc。
4.多次更新
5.Linear: 將最新的outputs，輸入到單層神經(jīng)網(wǎng)絡(luò)中，輸出層維度為“譯文”有效單詞總數(shù)；更新outputs

備注：借鑒出處https://zhuanlan.zhihu.com/p/...

云服務(wù)器 GPU云服務(wù)器深度學(xué)習(xí)詳解執(zhí)行流程詳解 php支付流程詳解 qkv

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://specialneedsforspecialkids.com/yun/45043.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

BDEEFE

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

keepalived的weight

閱讀 1357·2021-11-24 09:39
[11.11]RAKsmart服務(wù)器秒殺$30/月,云服務(wù)器全場(chǎng)7折,站群服務(wù)器/大帶寬服務(wù)器持續(xù)熱

閱讀 1346·2021-11-04 16:12
嵌入式新聞早班車-第27期

閱讀 2686·2021-09-24 09:47
v5 server：香港、韓國(guó)、臺(tái)灣服務(wù)器7折優(yōu)惠;香港BGP服務(wù)器月付低至325元

閱讀 3337·2021-09-01 10:50
關(guān)于js計(jì)算非等寬字體寬度的方法

閱讀 1477·2019-08-30 15:55
入門css3動(dòng)畫

閱讀 1423·2019-08-30 15:43
CSS3變形的理解

閱讀 642·2019-08-30 11:08
找出數(shù)組 arr 中重復(fù)出現(xiàn)過(guò)的元素

閱讀 3578·2019-08-23 18:33

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

深度學(xué)習(xí)self-attention流程詳解（qkv）

相關(guān)文章

Ian Goodfellow提出自注意力GAN，ImageNet圖像合成獲最優(yōu)結(jié)果

發(fā)表評(píng)論

0條評(píng)論

BDEEFE

男|高級(jí)講師

TA的文章

keepalived的weight

[11.11]RAKsmart服務(wù)器秒殺$30/月,云服務(wù)器全場(chǎng)7折,站群服務(wù)器/大帶寬服務(wù)器持續(xù)熱

嵌入式新聞早班車-第27期

v5 server：香港、韓國(guó)、臺(tái)灣服務(wù)器7折優(yōu)惠;香港BGP服務(wù)器月付低至325元

關(guān)于js計(jì)算非等寬字體寬度的方法

入門css3動(dòng)畫

CSS3變形的理解

找出數(shù)組 arr 中重復(fù)出現(xiàn)過(guò)的元素

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

深度學(xué)習(xí)self-attention流程詳解（qkv）

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！