nn模組中的LSTM與Embedding

2021-10-03 12:43:41 字數 1787 閱讀 6985

rnn和rnncell層的區別在於前者能夠處理整個序列,而後者一次只處理序列中乙個時間點的資料,前者封裝更完備易於使用,後者更具靈活性。rnn層可以通過組合呼叫rnncell來實現。

例1:rnn

import torch as t

from torch.autograd import variable as v

import torch.nn as nn

t.manual_seed(1000)

#batch_size 為3,句子長度為2,序列中每個元素佔4維

input=v(t.randn(2,3,4))

#輸入向量4維,3個隱藏元,1層

lstm=nn.lstm(4,3,1)

#初始狀態,1層,batch_size=3,3個隱藏元

h0=v(t.randn(1,3,3))

c0=v(t.randn(1,3,3))

out,hn=lstm(input,(h0,c0))

print(out)

#輸出tensor([[[-0.3610, -0.1643, 0.1631],

[-0.0613, -0.4937, -0.1642],

[ 0.5080, -0.4175, 0.2502]],

[[-0.0703, -0.0393, -0.0429],

[ 0.2085, -0.3005, -0.2686],

[ 0.1482, -0.4728, 0.1425]]], grad_fn=)

例2:rnncell

# 乙個lstmcell對應的層數只能是一層

lstm=nn.lstmcell(4,3)

hx=v(t.randn(3,3))

cx=v(t.randn(3,3))

out=

for i_ in input:

hx,cx=lstm(i_,(hx,cx))

print(t.stack(out))

#輸出tensor([[[-0.3610, -0.1643, 0.1631],

[-0.0613, -0.4937, -0.1642],

[ 0.5080, -0.4175, 0.2502]],

[[-0.0703, -0.0393, -0.0429],

[ 0.2085, -0.3005, -0.2686],

[ 0.1482, -0.4728, 0.1425]]], grad_fn=)

可以看到,兩者輸出的結果是一樣的。

詞向量在nlp中應用十分廣泛,pytorch同樣提供了embedding層。

# 有4個詞,每個詞用5維向量表示

embedding=nn.embedding(4,5)

# 可以用預訓練好的詞向量初始化embedding

embedding.weight.data=t.arange(0,20).view(4,5)

# 行索引index=3,2,1 也就是說從預訓練詞向量中取前3個詞向量,每個詞向量5維

input=v(t.arange(3,0,-1)).long()

print(input.size())

out=embedding(input)

print(out)

#輸出torch.size([3])

tensor([[15, 16, 17, 18, 19],

[10, 11, 12, 13, 14],

[ 5, 6, 7, 8, 9]], grad_fn=)

Pytorch pytorch中的LSTM模型

pytorch中lstm的公式表示為 pytorch中lstm的定義如下 輸入資料格式 input seq len,batch,input size h0 num layers num directions,batch,hidden size c0 num layers num directions...

單層LSTM和多層LSTM的輸入與輸出

rnn結構 對應的 為 中沒寫偏置 上圖是單層lstm的輸入輸出結構圖。其實它是由乙個lstm單元的乙個展開,如下圖所示 所以從左到右的每個lstm block只是對應乙個時序中的不同的步。在第乙個圖中,輸入的時序特徵有s個,長度記作 seq len,每個特徵是乙個c維的向量,長度記作 input ...

LSTM與RNN的區別

1.rnn rnn能夠處理一定的短期依賴,但無法處理長期依賴問題。因為當序列較長時,序列後部的梯度很難反向傳播到前面的序列,這就產生了梯度消失問題。當然,rnn也存在梯度 問題,但這個問題一般可以通過梯度裁剪 gradient clipping 來解決。rnn網路結構如下 ht 為timestep ...