NLP中MLP線性層的理解

1、給定某變數x([batch_size, seq_len, input_dim])，經過線性層

y =x

w+by=

xw+b

w維度[input_dim, out_dim]，b維度[out_dim]，y維度為[batch_size, seq_len, out_dim]。

假定input_dim=5，out_dim=8。x為5維空間中的乙個點，經過線性變換到8維空間某個點。w矩陣相當於線性變換矩陣（旋轉和平移），b是在wxwx

wx變數方向上進行縮放。在變數x上進行線性變換，相當於對變數x進行平移、旋轉、縮放。

做多次線性變換，可以合併成一次線性變換，所以需要啟用函式，將線性變換進一步變成非線性變換。

剛體變換：兩點間的距離經變換後保持不變，保持平行關係。

剛體變換包括旋轉、平移、翻轉。剛體變換是仿射變換子集。

仿射變換：直線經過變換後仍是直線，且保持平行關係。（線段的長度比例不變）

仿射變換包括旋轉 (以角度旋轉)、平移 (向量加)、縮放(影象整體變換）、剪下（圖形拉伸）、翻轉（圖形翻轉）

投影變換：直線經過變換後仍為直線，但平行關係不一定保持。也稱作透視變換。典型例子：不規則四邊形通過變換後變成正方形。

非線性變換：顧名思義，即直線通過變換後不一定為直線。

參考資料：

新增鏈結描述

NLP中啟用函式的理解

1 啟用函式將線性變換轉變成非線性。y xw b y sigma xw b y xw b xw bxw b xw b 是在x基礎上做的線性變換仿射變換總體來說做的平移旋轉和縮放，加入啟用函式後，原來的變換是非線性的。上式也可以理解為，在x xx基礎上先過mlp，再加啟用函式。在實際訓練中，發現...

快速理解NLP中的Attention機制

常規的機器翻譯採用encoder decoder結構，其中兩個模組的目的是這樣的問題在於，每一次的輸出y iy i yi 所關注的語義內容可能並不是一樣的，比如句子請結合上圖來理解這些公式總而言之，整個attention的計算過程如下所示 mti viq t 1m v iq mti v i q...

徹底理解 NLP中的word2vec

首先簡單概括一下 word2vec 的思想 word2vec的目的是用指定維度的向量來表示詞庫中的每乙個詞，這些向量更利於後期進行各種nlp任務每個詞語對應的詞向量本質上是語言模型中的一些權重引數，因此我們需要通過訓練網路的方式得到這些權重的最優值，換句話說，我們通過未知詞的方式訓練網路，目的並...

NLP中MLP線性層的理解

NLP中啟用函式的理解

快速理解NLP中的Attention機制

徹底理解 NLP中的word2vec

相關推薦