nn模組中的LSTM與Embedding

rnn和rnncell層的區別在於前者能夠處理整個序列，而後者一次只處理序列中乙個時間點的資料，前者封裝更完備易於使用，後者更具靈活性。rnn層可以通過組合呼叫rnncell來實現。

例1：rnn

import torch as t
from torch.autograd import variable as v
import torch.nn as nn
t.manual_seed(1000)
#batch_size 為3，句子長度為2，序列中每個元素佔4維
input=v(t.randn(2,3,4))
#輸入向量4維，3個隱藏元，1層
lstm=nn.lstm(4,3,1)
#初始狀態,1層，batch_size=3，3個隱藏元
h0=v(t.randn(1,3,3))
c0=v(t.randn(1,3,3))
out,hn=lstm(input,(h0,c0))
print(out)
#輸出tensor([[[-0.3610, -0.1643, 0.1631],
[-0.0613, -0.4937, -0.1642],
[ 0.5080, -0.4175, 0.2502]],
[[-0.0703, -0.0393, -0.0429],
[ 0.2085, -0.3005, -0.2686],
[ 0.1482, -0.4728, 0.1425]]], grad_fn=)

例2：rnncell

# 乙個lstmcell對應的層數只能是一層
lstm=nn.lstmcell(4,3)
hx=v(t.randn(3,3))
cx=v(t.randn(3,3))
out=
for i_ in input:
hx,cx=lstm(i_,(hx,cx))
print(t.stack(out))
#輸出tensor([[[-0.3610, -0.1643, 0.1631],
[-0.0613, -0.4937, -0.1642],
[ 0.5080, -0.4175, 0.2502]],
[[-0.0703, -0.0393, -0.0429],
[ 0.2085, -0.3005, -0.2686],
[ 0.1482, -0.4728, 0.1425]]], grad_fn=)

可以看到，兩者輸出的結果是一樣的。

詞向量在nlp中應用十分廣泛，pytorch同樣提供了embedding層。

# 有4個詞，每個詞用5維向量表示
embedding=nn.embedding(4,5)
# 可以用預訓練好的詞向量初始化embedding
embedding.weight.data=t.arange(0,20).view(4,5)
# 行索引index=3，2，1 也就是說從預訓練詞向量中取前3個詞向量，每個詞向量5維
input=v(t.arange(3,0,-1)).long() 
print(input.size())
out=embedding(input)
print(out)
#輸出torch.size([3])
tensor([[15, 16, 17, 18, 19],
[10, 11, 12, 13, 14],
[ 5, 6, 7, 8, 9]], grad_fn=)

Pytorch pytorch中的LSTM模型

pytorch中lstm的公式表示為 pytorch中lstm的定義如下輸入資料格式 input seq len,batch,input size h0 num layers num directions,batch,hidden size c0 num layers num directions...

單層LSTM和多層LSTM的輸入與輸出

rnn結構對應的為中沒寫偏置上圖是單層lstm的輸入輸出結構圖。其實它是由乙個lstm單元的乙個展開，如下圖所示所以從左到右的每個lstm block只是對應乙個時序中的不同的步。在第乙個圖中，輸入的時序特徵有s個，長度記作 seq len，每個特徵是乙個c維的向量,長度記作 input ...

LSTM與RNN的區別

1.rnn rnn能夠處理一定的短期依賴，但無法處理長期依賴問題。因為當序列較長時，序列後部的梯度很難反向傳播到前面的序列，這就產生了梯度消失問題。當然，rnn也存在梯度問題，但這個問題一般可以通過梯度裁剪 gradient clipping 來解決。rnn網路結構如下 ht 為timestep ...

nn模組中的LSTM與Embedding

Pytorch pytorch中的LSTM模型

單層LSTM和多層LSTM的輸入與輸出

LSTM與RNN的區別

相關推薦