CS231N斯坦福計算機視覺公開課筆記

2021-10-08 18:13:51 字數 1677 閱讀 4297

p6 視覺化卷積神經網路: 導向反向傳播讓輪廓更明顯,找到識別最大的原始影象

p9 : cnn 網路工程的實踐技巧,,3*3 卷積,步長為1 ,padding =1 使得feature map 維度不變。

兩個3*3 替換乙個5*5 ,感受野相同,可以減少引數,非線性變換的次數增多。

輸入h*w*c,c是通道數,要c個卷積核,卷積核大小是7*7,引數是7*7*c*c,3個3*3 來代替,引數是3*3*c*c

乘法運算量: feature map 元素數* 每次卷積感受野數量: (h*w*c)*(7*7*c),3個3*3 的乘法運算量是3*(h*w*c)*(3*3*c)

1*1 卷積: 跨通道的資訊交流,降維和公升維。降維: filter 的個數變少就行,公升維: filter 的個數變多

好處: 減少引數數量,前面的引數1*1*c*c/2 +3*3*c/2*c/2+1*1*c/2*c,後面的(3*3*c)*c

1*3 和3*1 可以提取長寬不同方向的不同資訊

2 如何高效地計算卷積?

將卷積運算變成矩陣乘法,矩陣乘法可以被高度優化加速,有很多現成演算法和工具包。

每個感受野拉成一列,移動多少個就得到多少列, filter 拉成行向量,兩個相乘,

3 快速傅利葉變換來進行卷積

兩個函式的卷積=兩個函式傅利葉變換之後逐元素乘積。

原始的矩陣相乘: 遍歷行+列+元素點乘 o(n3) 時間複雜度,strassen 演算法 可以降低到o(n2.81) 

總結: 三個加速矩陣運算的秘籍: 卷積變成矩陣乘法,變成傅利葉變換的方法,加速矩陣乘法。

p10 遷移學習

自己資料較小時,修改輸出分類的層,凍結模型前面層的結構和權重; 資料較大的時候,多往前訓練幾層。

mibilenets : group 卷積核depthwise seprable  卷積,大大減少參數量。

nasnet : 強化學習判斷哪種神經網路最優。

roc: 要計算特異性和靈敏度,specificity和sensitivity

平移不變性來自於下取樣和池化

p11 google 不同卷積核得到的摞起來,但是太厚了,pooling 層是不會改變通道數的,和其他的filter 得到的摞在一起就越來越厚,要放1*1 的卷積來減少通道數,降維或公升維,跨通道資訊交融,減少參數量,增加模型深度提高非線性表示能力。

senet: 自適應學習得到每個channel的權重

p12 :gpu和cpu: cpu 讀取資料,gpu 訓練

p17:卷積神經網路是沿時間維度的權值共享

長期記憶是貫穿整個時間軸,通過加法來更新,所有沒有梯度累乘**的問題,短期記憶是每個神經元的輸出,也同時被喂到了下乙個神經元作為輸入

斯坦福CS224n課程作業

作業要求如下 解析 題目要求我們證明 softmax 函式具有常數不變性。解答 對於 x c 的每一維來說,有如下等式成立 softmax x c frac c e c frac e e e frac e e e frac e softmax x 則可知 softmax x softmax x c ...

李飛飛計算機視覺課CS231n第一天

pascal visual object challenge 20 catagories imagenet 22000 catagories and 14 millions images 是一種基於特徵的目標識別。用乙個 stop 標識去匹配另乙個 stop 標識非常困難,因為有很多變化的因素,比如...

李飛飛計算機視覺課CS231n第二天

1.影象分類資料和label分別是什麼 影象分類存在的問題與挑戰 影象分類的資料是一張上的畫素點。灰度影象只有乙個通道,而彩色影象有rgb三個通道。對於計算機來說,它不能辨別出這張 上的物體。所以,我們需要向這個賦予標籤以讓計算機識別。問題與挑戰 a.即使是同乙個物體,拍攝的角度不同,背後蘊含的資料...