神經網路不適合小白

\[ cost(h_\theta(x^)-y^) = \sum_^ y_k^log(h_\theta(y_k^)) + (1 - y_k^)log(1 - h_\theta(y_k^)) \]

\[ j(\theta) = }\sum_^cost(h_\theta(x^)-y^) + }\sum_^\sum_^\sum_^}\theta_^ \]

\[ j(\theta) = }\sum_^\sum_^ y_k^log(h_\theta(y_k^)) + (1 - y_k^)log(1 - h_\theta(y_k^)) + }\sum_^\sum_^\sum_^}\theta_^ \]

可以會誤解的

神經網路示意圖

\(a1\)表示乙個輸入樣本, 也就是輸入層, \(a_1^,a_2^, a_3^\)表示3個特徵, 其中+1在第1層表示為\(a_0^\), 在第2層表示為\(a_0^\)

\(a^\)表示隱藏層

\(a^\)表示輸出層, 可以理解為\(h_\theta(x^)\)

\(\theta^\)表示輸入層到隱藏層的權重矩陣

\(\theta^\)表示隱藏層到輸出層的權重矩陣

現在不考慮bias節點, 輸入層有3個節點, 隱藏層有3個節點, 輸出層有3個節點,這裡只有輸入層沒有啟用函式, 也就是沒有運算的功能, 僅僅是擔任提供資料的功能, 我們常說乙個神經網路是2層, 3層之類的, 是根據該神經網路的計算層的個數判斷的, 我們這裡的神經網路就是乙個2層神經網路

根據當前神經網路列出正向傳播公式(對於單個樣本)

上面的式子, 由於是在乙個樣本中乙個特徵乙個特徵的計算, 所以有一點繁瑣, 但是只要理解了每乙個特徵的計算方法, 那麼轉為矩陣運算或者向量運算是非常方便的, 接下來就將上面的式子轉為向量式

上面已經完成了正向傳播, 現在進行反向傳播

最後得到的\(\delta^\)和\(\delta^\)就是\(\theta^\)矩陣和\(\theta^\)矩陣的梯度矩陣

注意: 在使用bp求梯度的時候, 一般是乙個矩陣乙個矩陣的權重去求的, 而傳統的梯度是由乙個乙個的權重去求的, 或者直接通過權重向量去求

posted @

2019-03-03 16:11

andrew_chan 閱讀(

...)

編輯收藏

神經網路不適合小白

神經網路不適合小白

真的不適合

開源不適合VMware

神經網路 不適合小白

神經網路 不適合小白

真的不適合

開源不適合VMware

相關推薦

神經網路不適合小白

神經網路不適合小白