第十講 迴圈神經網路 課時23

2021-08-19 21:57:40 字數 1331 閱讀 9071

image captioning 是由cnn和rnn連線起來的網路

cnn處理圖形後不再產生乙個向量,而是對的每個位置各產生乙個向量,即輸入到rnn的是乙個向量組

hard attention 不可微分,需要高階bp演算法(增強學習中會介紹)

將rnn單元縮寫

whh,whx兩個矩陣橫著擺放

ht-1和xt豎著擺

由於rnn序列很長,會出現梯度消失和梯度**問題

梯度**使用gradient clipping解決

梯度消失使用lstm

具體的反向傳播過程如下:

通過ct,可以傳回梯度(ct能傳回來梯度,對應單元的w也就有了梯度)

乘的不再是矩陣,而是f,每次乘的f不一樣,所有消失的慢。而且不經過tanh

f門的偏置可以初始為較大的值,以使得啟用後不為0

lstm和gru改變一點都會效果變差,無法改進。。。

gru如下圖

第十講 迴圈神經網路 課時22 語言模型

language model即語言生成模型 character level language model 訓練過程 訓練過程的輸入時給定的,結果是乙個向量,進過softmax後就是為各個character的概率 測試過程 輸入是前乙個的輸出,輸出是由soft max 之後的概率分布 取樣得到的 如果...

迴圈神經網路

原文 迴圈神經網路也可以畫成下面這個樣子 對於語言模型來說,很多時候光看前面的詞是不夠的,比如下面這句話 我的手機壞了,我打算 一部新手機。可以想象,如果我們只看橫線前面的詞,手機壞了,那麼我是打算修一修?換一部新的?還是大哭一場?這些都是無法確定的。但如果我們也看到了橫線後面的詞是 一部新手機 那...

迴圈神經網路

原文 迴圈神經網路也可以畫成下面這個樣子 對於語言模型來說,很多時候光看前面的詞是不夠的,比如下面這句話 我的手機壞了,我打算 一部新手機。可以想象,如果我們只看橫線前面的詞,手機壞了,那麼我是打算修一修?換一部新的?還是大哭一場?這些都是無法確定的。但如果我們也看到了橫線後面的詞是 一部新手機 那...