從感知機到深度學習

一從感知機到深度學習

第乙個正式的神經元模型是由沃倫·麥卡洛克（warren maculloach）和沃爾特·皮茨（walter pitts）於1943.年提出的。這個模型看起來很像組成計算機的邏輯門。麥克洛克-皮茨神經元做不了的事情就是學習。為此我們需要對神經元之間的連線給予不同的權重，這就是所謂的「感知機」。感知機於20世紀50年代由康奈爾大學的心理學家弗蘭克·羅森布拉特（frank rosenblatt）發明。

在感知機中，乙個正權值代表乙個興奮性連線，乙個負權值代表乙個抑制性連線。如果其輸入量的加權和高於界限值，那麼會輸出1；如果加權和小於界限值，那麼輸入0。通過改變權值和界限值，我們可以改變感知器計算的函式。當然，這種做法忽略了神經元發揮作用的很多細節，但我們想讓這個過程盡可能簡單點。單個感知機的侷限是無法解決xor這類非線性不可分問題。

二多層感知機的原理

單個感知器雖然無法解決異或問題，但卻可以通過將多個感知器組合，實現複雜空間的分割。如下圖：

多個感知器組合成多層網路可解決xor問題，但不能解決所有非線性可分問題。我們用非線性啟用函式，可以擬合任意函式。求導用誤差反向傳播方法，求極值用梯度下降法。具體求導用theano或tensorflow封裝的方法。

梯度下降法的步子大小是個很重要的技巧。在離極值點遠的時候步子可以大一些，離極值點近的時候步子要小一些。可以動態調整學習率。如下圖：

三從貝葉斯角度看正則化

1. 正則化的目的：防止過擬合！2. 正則化的本質：約束（限制）要優化的引數。

從貝葉斯角度

看正則化就是最大後驗概率估計(maximum a posteriori estimation, map)

，正則項等價於引入引數的先驗概率分布。常見的l1/l2正則，分別等價於引入先驗資訊：引數符合拉普拉斯分布/高斯分布。

從感知機到深度學習

深度學習入門09 從感知機到神經網路

深度學習感知機

深度學習感知機

從感知機到深度學習

深度學習入門09 從感知機到神經網路

深度學習 感知機

深度學習 感知機

相關推薦

深度學習感知機

深度學習感知機