LSTM 網路結構簡述

2021-09-23 02:47:07 字數 1697 閱讀 1140

rnn 存在「長期依賴」問題,當序列過長時候,一方面在優化時出現梯度消失或**的問題。另一方面,展開後的前饋神經網路會占用較大的記憶體。

實際中,複雜語言場景中,有用的資訊間隔有大有小,長短不一,rnn效能受限。lstm則靠一些「門」結構讓資訊有選擇性地影響迴圈神經網路中每個時刻的狀態。

「門」結構就是通過使用sigmoid函式和按位乘法的操作。其中sigmoid函式作為啟用函式會輸出0~1之間的數值,來描述當前的輸入 有多少資訊量 可以通過這個結構。1則表示全通過,0表示無法通過,而0-1之間的數也是按權保留資訊,接近1的通過的多,接近0的通過的少。再通過按位相乘,那麼就對原有的資訊進行了篩選。

基本結構

lstm 最有特點的也就是 3個門來控制

其中 : 1遺忘門 2是輸入門 3 是輸出門

先大致講一下等號左端各個符號的含義:

表示輸入門,表示遺忘門,表示輸出門,表示輸入的資訊,表示當前網路所表示的資訊,則表示當前時刻輸出的資訊。大致可以看到是有兩部分相加得到,這也是lstm避免梯度消失的地方,將乘變為『+』。

lstm網路結構中存在著乙個隱藏的記憶結構,也就是 。這個變數每一次都參加都運算當中,但是輸出的時候只輸出,並不會輸出。下圖紅線,表示了再每個lstm單元中,都是用來協助儲存資訊的。

我們需要關注的是這三個門都是如何起作用的

輸入門

其中分別表示前面資訊的輸出和當前的輸入, 的意思是,將兩個向量進行拼接。

比如代表著輸入門的權重引數和偏置項。 代表著sigmoid函式,這也是「門」發揮作用的地方。

lstm組合式中的表示當前輸入的資訊,在中有一部分為。這個式子就是輸入門發揮作用的地方,通過按位乘,將對的資訊進行「門」控制。

遺忘門

遺忘門的生成跟輸入門是一樣的,只不過有不同的引數從而生成了遺忘門。這裡比輸入門相對簡單,因為遺忘門作用在前面輸入的資訊上,而 是直接可得到的。所以有了這個式子的部分。其中的是來自上乙個時刻的資訊。

這個時候我們再回顧下上面的

符號

(截圖上打不出數學符號,就是 ,依次類推)

可以看到上面各個式子的作用過程

輸出門

輸出門的門結構形成與前面是一樣的,不同的還是在於引數。輸出門作用的是控制輸出資訊。通過輸出函式: 來進行控制。就是我們當前單元得到的資訊。其中即包含了對輸入資訊的選擇,也包含了之前資訊的選擇。(參考)

則對輸出資訊再次進行「門」選擇。我們可以得到真正的輸出資訊。

結合自己一部分認知,以及常寶寶老師今天課上講的內容,總結了下。

深度學習之神經網路結構 RNN 理解LSTM

本篇部落格移動到中。rnn 我們不是在大腦一片空白的情況下開始思考。當你讀這篇文章的時候,你是基於對前面單詞的理解來理解當前的單詞。你不會把所有的東西丟開,讓大腦每次都一片空白地思考。我們的思想是持久的。傳統的神經網路做不到這一點,這看起來是它的主要缺點。舉個例子,假設你正在看電影,你想對每個時間點...

c s網路結構

採用c s 客戶端和服務端模式進行檔案和命令資料的傳輸,以及資料的交換。c s 和b s p2p等多種技術想結合。一,cs 網路的實現 採用傳統的客戶端和服務端模式,用tcp ip 協議進行資料的互動和傳遞。二,cs網路開發 模仿著名的灰鴿子軟體,灰鴿子的到來,給網路世界,帶來了新的活力,給人們帶來...

GPRS網路結構

gprs網路結構圖 bts base transceiver station,基站收發臺 bts可看作乙個無線數據機,負責移動訊號的接收和傳送處理 bsc base station controller,基站控制器 msc mobile switching center,移動交換中心 整個gprs網...