深度學習計算模型中門函式的作用

上面是lstm的計算公式，那三個sigmoid作為非線性函式的就是三個門。lstm是rnn模型，決定t時刻節點的除了當前x(t)外，還有t-1時刻的隱層節點輸出h(t-1).這代表了歷史資訊對當前的影響，所以決定門開關程度的除了當前輸入x(t)外，還有h(t-1)。

含義很清楚，輸入門是用來控制輸入i'(t)進出多少或者是否允許進出門的裝置；輸出門是用來控制t時刻狀態值m(t)對外多少是可見的門裝置。遺忘門是控制歷史狀態m(t-1)流動到t時刻後允許多少進入t時刻的門裝置。

所以關鍵在lstm的狀態值更新函式和隱層節點輸出值函式上。對於狀態更新函式來說，

f(t)是遺忘門門控，m(t-1)是歷史狀態資訊，兩者相乘代表t時刻允許多少歷史資訊進入來決定m(t)當前狀態，如果遺忘門取0值，則歷史對當前狀態無影響，如果遺忘門全開取1值，則歷史資訊原封不動的傳到t時刻，沒有任何資訊損失，更大可能是取值為0到1，代表歷史資訊的部分流入。

i(t)是輸入門門控，i'(t)是當前輸入值，兩者相乘代表t時刻允許多少歷史資訊進入來決定m(t)當前狀態，如果輸入門全關取值0，則lstm忽略當前輸入的影響，如果輸入門全開取值1，則當前輸入最大化地決定當前狀態m(t)，沒有任何資訊損失，當然更大可能取值是0到1之間，代表資訊的部分流入。

經過兩個門控制歷史資訊的影響以及當前當前輸入的影響，就形成了t時刻的隱層節點狀態值m(t)，其實可以看到它本質跟rnn一樣，無非是體現歷史影響和當前輸入的影響，但是相對rnn，通過門控來自適應地根據歷史和輸入來控制資訊的流動，當然更主要的是通過抽離出的m儲存往後傳遞方式來解決梯度瀰散問題的。

隱層節點輸出值h(t)好理解，就是說通過門控制當前狀態m(t)對外多少是可見的，因為m(t)是內部隱藏的狀態資訊，除了往t+1時刻隱層傳輸外，外部其它地方是看不到的，但是他們可以看到h(t)。

這就是lstm是如何用三個門控以及抽離出的m狀態儲存器來表達邏輯的思路

深度學習計算模型中門函式的作用

（三）深度學習計算 1 模型構造

深度學習 batch size的作用

深度學習中模型的優化

深度學習計算模型中 門函式 的作用

（三）深度學習計算 1 模型構造

深度學習 batch size的作用

深度學習中模型的優化

相關推薦

深度學習計算模型中門函式的作用