神經網路中的BPTT演算法簡單介紹

首先來看下rnn的乙個迴圈網路結構圖：

在時間維度上，我們將rnn進行展開，以便能夠更好地來觀察：

主要的引數就是三部分：在rnn中每乙個時間步驟用到的引數都是一樣的，要理解清楚的是：一般來說，每一時間的輸入和輸出是不一樣的，比如對於序列資料就是將序列項依次傳入，每個序列項再對應不同的輸出（比如下乙個序列項）：

將rnn展開之後，似乎一切都很明了了，前向傳播（forward propagation）就是依次按照時間的順序計算一次就好了，反向傳播（back propagation）就是從最後乙個時間將累積的殘差傳遞回來即可，跟普通的神經網路訓練並沒有本質上的不同。

直接上公式啦：

本文用到的公式基本來自alex的**，其中a表示匯集計算的值，b表示經過啟用函式計算的值，w是不同節點之間連線的引數（具體睡誰連誰看下標），帶下標k的是輸出層，帶下標h的是隱藏層相關的，除此之外你看到所有帶括號的的函式都是啟用函式，

ϵ 和

δ 的定義看公式，

l 是最後的loss function，這裡沒有給出具體的計算方法，因為這和nn是一樣的，可以看到輸出層和普通的nn是完全一樣的，接收隱藏層傳入的資料並乘以引數求和，只是每乙個計算出來的值都有個時間上標t，表示它是t時刻的那個節點。

而隱藏層的計算就是和nn不同的地方，從之前的拓撲圖也看到了，隱藏層會接受來自上一時間隱藏層傳入的資料，在公式裡也體現出來了：第乙個求和是和nn一致的，接收來自輸入層的資料，第二個是接收來自上一隱藏層的資料。

這裡主要給出的是計算隱藏層的累積殘差的公式，因為輸出層和經典的nn是一回事，可以看到第乙個公式括號中的兩個部分，乙個是接收當前時間輸出層傳回的殘差，第二個是接收下一時間隱藏層傳回的殘差，看著上面的圖其實非常好理解。

一下是手寫的一些筆記，有待更正：