網摘一些概念 全連線層 roi rpn

2021-08-03 17:54:41 字數 2550 閱讀 7172

先貼一篇講的比較全的

一 全連線層

1.整體的結構框圖

2.全連線層的推導:

**如下鏈結

3。全連線層的具體含義:

全連線層(fully connected layers,fc)在整個卷積神經網路中起到「分類器」的作用。如果說卷積層、池化層和啟用函式層等操作是將原始資料對映到隱層特徵空間的話,全連線層則起到

將學到的「分布式特徵表示」對映到樣本標記空間的作用

。在實際使用中,全連線層可由卷積操作實現:對前層是全連線的全連線層可以轉化為卷積核為1x1的卷積;而前層是卷積層的全連線層可以轉化為卷積核為hxw的全域性卷積,h和w分別為前層卷積結果的高和寬。

卷積層模仿人的視覺通路提取特徵,全連線層一般負責分類或者回歸,由於全連線層會丟失一些特徵位置資訊,所以最近fcn火了起來,全部卷積層,不用全連線層。

**:

全連線的核心操作就是矩陣向量乘積

本質就是由乙個特徵空間線性變換到另乙個特徵空間。目標空間的任一維——也就是隱層的乙個 cell——都認為會受到源空間的每一維的影響。不考慮嚴謹,可以說,目標向量是源向量的加權和。

在 cnn 中,全連線常出現在最後幾層,用於對前面設計的特徵做加權和。比如 mnist,前面的卷積和池化相當於做特徵工程,後面的全連線相當於做特徵加權。(卷積相當於全連線的有意弱化,按照區域性視野的啟發,把區域性之外的弱影響直接抹為零影響;還做了一點強制,不同的區域性所使用的引數居然一致。弱化使引數變少,節省計算量,又專攻區域性不貪多求全;強制進一步減少引數。少即是多)

在 rnn 中,全連線用來把 embedding 空間拉到隱層空間,把隱層空間轉回 label 空間等。

卷積層本來就是全連線的一種簡化形式:不全連線+引數共享,同時還保留了空間位置資訊。這樣大大減少了引數並且使得訓練變得可控。

全連線就是個矩陣乘法,相當於乙個特徵空間變換,可以把有用的資訊提取整合。再加上啟用函式的非線性對映,多層全連線層理論上可以模擬任何非線性變換。但缺點也很明顯: 無法保持空間結構。

全連線的乙個作用是維度變換,尤其是可以把高維變到低維,同時把有用的資訊保留下來。

全連線另乙個作用是隱含語義的表達(embedding),把原始特徵對映到各個隱語義節點(hidden node)。對於最後一層全連線而言,就是分類的顯示表達。

不同channel同一位置上的全連線等價與1x1的卷積。

n個節點的全連線可近似為n個模板卷積後的均值池化(gap)。

總的來說,全連線層就是將特徵提取轉為目標框的分類,並且這個起到了維度轉化,沒有保留之前的結構資訊,採納了所有點的資訊,形象的說,還是那個螞蟻的例子,每個螞蟻看到了一小片麵包,開乙個螞蟻大會,大家投票表決到底是個什麼東西。

最後再加乙個參考:

二 roi pooling

1 fast r-cnn的圖

2. roi的輸入輸出

roi pooling 層:

再貼另一篇將roi輸入輸出的文章

roi的主要目的還是從feature map上摳出感興趣區域,然後pooling。

為什麼要做pooling呢?因為只要pooling出來了最大值,那麼不管這個最大值在中的哪個位置,都會被檢測出來,也就引入了不變性。

注意;pooling的尺度是不一樣的,比如可以設定成9*9的,4*4的,最後都卷積為乙個值。

三 rpn

**:rpn的實現方式:在conv5-3的卷積feature map上用乙個n*n的滑窗(**中作者選用了n=3,即3*3的滑窗)生成乙個長度為256(對應於zf網路)或512(對應於vgg網路)維長度的全連線特徵。然後在這個256維或512維的特徵後產生兩個分支的全連線層:1.reg-layer,用於**proposal的中心錨點對應的proposal的座標x,y和寬高w,h;2.cls-layer,用於判定該proposal是前景還是背景。sliding window的處理方式保證reg-layer和cls-layer關聯了conv5-3的全部特徵空間。事實上,作者用全連線層實現方式介紹rpn層實現容易幫助我們理解這一過程,但在實現時作者選用了卷積層實現全連線層的功能。個人理解:全連線層本來就是特殊的卷積層,如果產生256或512維的fc特徵,事實上可以用num_out=256或512, kernel_size=3*3, stride=1的卷積層實現conv5-3到第乙個全連線特徵的對映。然後再用兩個num_out分別為2*9=18和4*9=36,kernel_size=1*1,stride=1的卷積層實現上一層特徵到兩個分支cls層和reg層的特徵對映。注意:這裡2*9中的2指cls層的分類結果包括前後背景兩類,4*9的4表示乙個proposal的中心點座標x,y和寬高w,h四個引數。採用卷積的方式實現全連線處理並不會減少引數的數量,但是使得輸入影象的尺寸可以更加靈活。

linux下ip層的一些概念

首先來看這個ip層的結構 這裡看到非常多的netfilter hook,這是因為netfilter主要是針對ip層的。ip層的主要任務有下面5個方面 1 ip資料報的校驗 2 防火牆的處理 也就是netfilter子系統 3 處理options 這裡的options包含了一些可選的資訊。比如時間戳或...

計網筆記 1 簡述一些概念

各層簡述 媒介層,如雙絞線,光纖等服務物理層,為資料位元傳輸提供媒介 物理層將資料以數碼訊號以無結構的位元傳輸,無法進行檢錯與糾錯 而物理層服務於資料鏈路層,資料鏈路層能將資料報文組成結構,以幀的方式進行傳輸,有檢錯的功能,實現了點對點的傳輸 資料鏈路層只能進行短距離的點對點傳輸,當需要端到端的長距...

程序的一些概念和動作(未全待續)

什麼是程序的私有堆疊?我們先了解一下程序切換的實質 把程序存放在處理器的暫存器中的中間資料找個地方存起來,從而把處理器的暫存器騰出來讓其它程序使用。這個地方就是程序的私有堆疊。程序占用處理器的實質 把某個程序存放在私有堆疊中暫存器的資料 前一次本程序被中止時的中間資料 再恢復到處理器的暫存器中去。並...