機器學習演算法推導 矩陣求導中為何會有「轉置」?

2022-08-30 00:54:19 字數 1651 閱讀 2702

之前學習神經網路推導的時候,發現在有的求導上最後結果需要轉置,而有的不需要,很困惑:

正向傳播:

反向傳播:

這裡為什麼要對w進行轉置操作?為什麼別處有的地方就沒有轉置操作?

思來想去,突然發現自己對矩陣求導似乎一無所知,遂有:

博主第一次參考的部落格--

​ ​

接下來就是博主的總結了:

在數學上, 矩陣微積分是用來表示多變數的微積分,當然主要還是在矩陣空間上的。它覆蓋了單一函式(單元)關於多變數的偏導,多變數函式(多元函式)關於單一變數、向量和矩陣的偏導(向量、矩陣可以被視為單一實體對待)。這種符號化的數學表示大大的簡化了很多操作,例如查詢多變數函式的最大值或者最小值,以及微分方程的求解系統等等。值得注意的是:下面使用的符號是在統計和工程領域中常用的,不過張量的指數表示(tensor index notation)是來自物理學。

不過有個我們之前未注意的是,有兩派人它們使用著自己的符號約定,從而將矩陣微積分劃分成了兩個派別。這兩個派別很容易區分,只要看它們寫乙個標量關於乙個向量的導數是寫成列向量還是行向量。不過這兩個約定都是被大家所接受的,就算是在涉及到一般的矩陣計算的時候,將常規的向量預設視為列向量(而不是行向量)的情況下還是成立的。在矩陣微積分中,如果採取了乙個約定,那麼就使用該約定貫穿整個領域(例如:計量經濟學,統計學,評估理論(etimation theory)和機器學習),不要混用不然會造成混亂。然而,在乙個具體的領域中,不同的作者還是會使用不同的約定,因為會有來自不同派別的作者會將他們自己的約定作為標準。所以在沒有去仔細的驗證不同作者的資料的時候盲目的將他們的結論放在一起會有嚴重的錯誤。因而在乙個完整的資料上需要確保符號的一致性。在下面的布局約定部分會有兩種約定的定義介紹和比較。

所以會有:

原文:

機器學習矩陣求導

矩陣求導好像讀書的時候都沒學過,因為講矩陣的課程上不講求導,講求導的課又不提矩陣。如果從事機器學習方面的工作,那就一定會遇到矩陣求導的東西。維基百科上 根據y與x的不同型別 實值,向量,矩陣 給出了具體的求導公式,以及一堆相關的公式,查起來都費勁。其實在實際的機器學習工作中,最常用到的就是實值函式y...

機器學習中的矩陣向量求導 一 求導定義與求導布局

在之前寫的上百篇機器學習部落格中,不時會使用矩陣向量求導的方法來簡化公式推演,但是並沒有系統性的進行過講解,因此讓很多朋友迷惑矩陣向量求導的具體過程為什麼會是這樣的。這裡準備用幾篇博文來討論下機器學習中的矩陣向量求導,今天是第一篇。本系列主要參考文獻為維基百科的matrix caculas和張賢達的...

機器學習中的矩陣向量求導 五 矩陣對矩陣的求導

本篇主要參考了張賢達的 矩陣分析與應用 和長軀鬼俠的矩陣求導術 假設我們有乙個p qp q的矩陣ff要對m nm n的矩陣xx求導,那麼根據我們第一篇求導的定義,矩陣ff中的pqpq個值要對矩陣xx中的mnmn個值分別求導,那麼求導的結果一共會有mnpqmnpq個。那麼求導的結果如何排列呢?方法有很...