學習日誌深度學習李巨集毅網路壓縮

網路中有很多神經元的輸出總是0,或者有某些權重非常接近0,那麼這些划水的就可以被去掉了.

修剪過程:評估\去除\再訓練

為什麼要修剪?而不是直接訓小的網路呢.

1.大的網路的區域性最優比較少,容易收斂

2.大樂透假設

大的網路設定了乙個隨機權重(#),通過訓練和修剪之後,得到了小的網路.

如果用乙個和該小網路相同結構的網路,並隨機設定初始權重,進行訓練,訓練就會失敗.

但是如果採用和原本大網路最開始時隨機採用的權重(即#標記的那個)相同的話,就能訓練出來.

也就是說大網路的隨機權重,可以看作一種**,恰好某個子網抽到了可以訓練的初始值

最好是剪掉神經元,因為剪掉權重後的網路往往是不規則的

一方面難以使用**等描述,另一方面不規整也會降低運算的速率

如果要剪掉權值,也最好是通過設零的方式,等效於剪掉

先使用資料集訓練乙個大的網路,然後再訓練乙個小的網路

小網路的訓練輸入不在是原始資料集,而是大網路的輸入和輸出結果.

也就是讓小網路去模擬大網路,因為teacher會提供比資料集更多的資料

為了縮小softmax結果之間的差距,其實沒啥用.

給出現頻率高的引數比較短的編碼,給出現頻率低的引數比較長的編碼.

就是訓練乙個權重只有+1,-1的網路

這個網路也許會很複雜,但是很好壓縮

兩種結構的參數量分別為 : nm 和 k(m+n)

如果控制k就能使得引數量變少

第一步中乙個濾波器只負責乙個頻道

第二步中再講各個頻道濾波結果綜合起來

減少了參數量(但代價是什麼呢),思想和上乙個知識點是一樣的

有點類似手機沒電了就會變慢的概念

在計算資源不足時,就減少一些計算量

1.做幾個網路,根據計算資源,決定走不同網路

2.做乙個網路,根據計算資源,決定走幾層再出結果

方法二會有一些***:

過早是的不到好結果的

硬要得到好結果也會違背卷積的初衷

(卷積的前幾層就是為了提取簡單特徵的,如果你硬讓它提取複雜特徵的話,會影響後面的結果,拔苗助長)

學習日誌深度學習李巨集毅指標網路

需要解決的都是一些演算法問題,比如在輸入點中選擇盡可能少的點,使這些點的連線能包住其他所有點因為輸入和輸出都是序列,符合s2s的情景但是有乙個問題 s2s在輸出的時候是在乙個範圍內做多道選擇題,也就是必須給出答案的範圍當輸入的數量發生變化,超出訓練時的最大範圍之後,模型就失效了拋棄了seq...

李巨集毅《深度學習》深度學習簡介

深度學習分為三部分定義一系列方程，計算方程的loss，然後選出最好的方程深度學習神經網路類似於人類的大腦的神經網路，每個方程可以看做乙個神經元，不同神經元連線會產生不同結果，在這裡我們介紹一下fully connect feedforward network 每個神經元都與下一層全部的神經元連線...

學習日誌深度學習李巨集毅優化器介紹

記錄的從第0步優化到第n步優化的步子最簡單的,走一步看一步還是走一步看一步,但是在走的每一步會受到之前所走過的步子的影響下圖中的v 且越近的步子對當前步子的影響會越大的次數會越來愈高重要的優點當本次梯度為零梯度消失後,上一步會保證繼續移動有點類似慣性和動量的概念優點就是控制步長,...

學習日誌 深度學習 李巨集毅 網路壓縮

學習日誌 深度學習 李巨集毅 指標網路

李巨集毅《深度學習》 深度學習簡介

學習日誌 深度學習 李巨集毅 優化器介紹

相關推薦

學習日誌深度學習李巨集毅網路壓縮

學習日誌深度學習李巨集毅指標網路

李巨集毅《深度學習》深度學習簡介

學習日誌深度學習李巨集毅優化器介紹