NLP中MLP線性層的理解

2021-10-02 00:04:26 字數 901 閱讀 5073

1、給定某變數x([batch_size, seq_len, input_dim]),經過線性層

y =x

w+by=

xw+b

w維度[input_dim, out_dim],b維度[out_dim],y維度為[batch_size, seq_len, out_dim]。

假定input_dim=5,out_dim=8。x為5維空間中的乙個點,經過線性變換到8維空間某個點。w矩陣相當於線性變換矩陣(旋轉和平移),b是在wxwx

wx變數方向上進行縮放。在變數x上進行線性變換,相當於對變數x進行平移、旋轉、縮放。

做多次線性變換,可以合併成一次線性變換,所以需要啟用函式,將線性變換進一步變成非線性變換。

剛體變換:兩點間的距離經變換後保持不變,保持平行關係。

剛體變換包括旋轉、平移、翻轉。剛體變換是仿射變換子集。

仿射變換:直線經過變換後仍是直線,且保持平行關係。(線段的長度比例不變)

仿射變換包括旋轉 (以角度旋轉)、平移 (向量加)、縮放(影象整體變換)、剪下(圖形拉伸)、翻轉(圖形翻轉)

投影變換:直線經過變換後仍為直線,但平行關係不一定保持。也稱作透視變換。典型例子:不規則四邊形通過變換後變成正方形。

非線性變換:顧名思義,即直線通過變換後不一定為直線。

參考資料:

新增鏈結描述

新增鏈結描述

NLP中啟用函式的理解

1 啟用函式將線性變換轉變成非線性。y xw b y sigma xw b y xw b xw bxw b xw b 是在x基礎上做的線性變換 仿射變換 總體來說做的平移 旋轉和縮放,加入啟用函式後,原來的變換是非線性的。上式也可以理解為,在x xx基礎上先過mlp,再加啟用函式。在實際訓練中,發現...

快速理解NLP中的Attention機制

常規的機器翻譯採用encoder decoder結構,其中兩個模組的目的是 這樣的問題在於,每一次的輸出y iy i yi 所關注的語義內容可能並不是一樣的,比如句子 請結合上圖來理解這些公式 總而言之,整個attention的計算過程如下所示 mti viq t 1m v iq mti v i q...

徹底理解 NLP中的word2vec

首先簡單概括一下 word2vec 的思想 word2vec的目的是用指定維度的向量來表示詞庫中的每乙個詞,這些向量更利於後期進行各種nlp任務 每個詞語對應的詞向量本質上是語言模型中的一些權重引數,因此我們需要通過訓練網路的方式得到這些權重的最優值,換句話說,我們通過 未知詞的方式訓練網路,目的並...