矩陣求導與反向傳播個人理解

2021-09-27 07:39:08 字數 721 閱讀 2400

矩陣求導參考

看圖中畫紅圈的欄

反向傳播參考b站

❀ 向量x與向量y相乘=乙個數 xy=數

(也就是x與y有乙個是行向量,乙個是列向量,習慣上一般我們認為y是列向量)

則數對x的偏導=y (格式與x一致)

數對y的偏導=x的轉置 (格式與y一致)

口訣:前不轉 後轉

口訣:鏈式法則向前乘

g(x)導數=g(1-g)

x(n×1) 到 w(k×n) x=z(k×1)

如果求出了損失函式l=誤差e 對z的偏導

那麼 l對w的偏導=啥?

這是乙個數 對乙個矩陣的偏導

其實你用元素分解法就知道= lz『 x

lz』是k×1矩陣,第一行元素表示l對z1的偏導

所以最後只需要 在右端乘以x 就可以表示反向傳播的最後一條線

❀z=(z1,……zk)的轉置 是乙個列向量k×1

h= g(z)對z的偏導= diag【g(z1),g(z2)……g(zk)】 k×k

x是n×1向量,w是k×n向量,wx=z,則

z對x的偏導=w的轉置 n×k

從而有h對x的偏導=w的轉置 diag【g(z1),g(z2)……g(zk)】

❀ y是最後輸出結果(假設是1個數 y估計)

l=1/2(y估計-y)^2

l對y估計的導數=(y估計-y)

反向傳播演算法的理解

bp backpropagation algorithm,反向傳播演算法 在神經網路學習中有著無可替代的作用,關於其優化方法可閱讀該文章 一文看懂各種神經網路優化演算法 從梯度下降到adam方法 本文僅立足於反向傳播的實現過程。文中如有理解偏差,請各位指正。就反向傳播的字面理解是將資料從後 輸出 向...

反向傳播演算法理解

舉例 已知e a b b 1 求a 2,b 1時,e的梯度。首先它的復合關係圖 可以先利用偏導數的定義求出不同層之間相鄰節點的偏導關係 1.常規求法 自下到往上 路徑為 a c e 路徑為 b c e b d e 問題 c e這條路徑重複了,對於權值動則數萬的深度模型中的神經網路,這樣的冗餘所導致的...

反向傳播的全矩陣方法

之前在神經網路隨機梯度下降計算梯度時,在反向傳播時每個樣本單獨計算梯度,然後再求小批量資料的梯度平均值 而現在全矩陣方法是將整個小批量作為乙個矩陣 乙個樣本作為一列 輸入整體利用矩陣運算一次計算梯度平均值,用計算出的梯度平均值去更新權重和偏置。結果表明,全矩陣方法能夠提公升效率平均5倍左右,由開始的...