分類分割檢測基礎

alexnet：7*7卷積

vggnet：用3個3*3的卷積核代替1個7*7的卷積核，兩種卷積核的感受也大小完全相同，但是vgg中的3個3*3的卷積核所包含的引數個數是3*(3*3*c1*c2),7*7的卷積核所包含的引數個數是：7*7*c1*c2，則vgg中卷積網路所包含的引數個數會比alextnet卷積網路的cnn引數少。

goolenet：inception module

resnet：通過殘差連線塊(residual module)解決梯度消失問題。

senet

resnext：是googlenet和resnet的結合

語義分割的基礎網路中：用卷積和max pooling實現下取樣，使用轉置卷積實現上取樣，反卷積就是轉置卷積。卷積在深度學習的框架底層實現**中使用的是矩陣相乘，例如對於4*4的卷積特徵圖再進行3*3的卷積核操作，padding=0，最終將得到2*2的卷積特徵圖，卷積在框架的底層實現過程如下：首先不考慮batch size維度，將4*4的特徵圖flatten成16*1的列向量，用乙個4*16的矩陣乘以16*1的列向量，將得到4*1的列向量，即為輸出的特徵圖。這個過程就是前向的卷積階段(下取樣過程)。在上取樣階段需要使用反卷積操作，如果需要將2*2的特徵圖經過上取樣需要輸出4*4的特徵圖，則需要用16*4的矩陣乘以4*1的列向量，得到16*1的列向量。由於進行上取樣和下取樣的矩陣的shape剛好是為轉置矩陣的關係，故而使用上取樣的卷積操作可以被稱為反卷積或者轉置卷積。

物體檢測模型之yolo

在工業界使用較多的物體檢測模型是yolo，yolo v1 *****基本給出了yolo 模型的大體思路，後面的兩個版本都是加入了一些小的trick。物體檢測是計算機視覺中的經典問題，它包含兩個部分的任務：(1)分類：對於包圍框中的前景類別進行分類；(2)回歸：對於包圍框的具體位置進行回歸。深度學習中的分類問題：其ground truth標籤是離散的，而對於回歸問題，其具體的位置都是連續的座標值，故而ground truth label都是連續的數值。

相比於faster rcnn系列中所包含的顯示地先求取region proposal的過程，以及ssd中的anchor boxes的設定，yolo(you only look once)則非常簡潔，並沒有提出有可能是前景框的候選框。yolo的網路流程如下：(1)首先將原始的輸入影象resize到416*416，(2)然後將影象輸入到卷積神經網路中得到卷積特徵圖，最後一層卷積層的輸出特徵圖就是網路模型的**值，根據**值在輸入影象上畫出prediction bounding boxes(3)對於畫出的包圍框，使用一定的閾值進行nms演算法。對於基於anchor boxes的密集檢測系統而言(通常帶有anchor機制的物體檢測器是密集檢測系統，如faster rcnn中的rpn，以及ssd)，最終都會使用nms演算法濾除冗餘的框，因為畢竟ground truth前景框的數量是非常有限的。

將原始的輸入影象劃分成s*s個網格(grid cell)，**中將輸入的影象resize成416*416，然後經過卷積網路提取特徵圖之後，得到7*7的特徵圖，b=2,即在網格的每個小方塊中**2個bounding boxes，也意味著在416*416的輸入影象上劃分成7*7個網格，則最終將會生成7*7*2=98個bounding boxes，最終根據對於每個包圍框的confidence和對於網格中每個畫素點的類別概率圖，進行nms演算法，得到最終的**結果。在明確了網路最終所要**的形式之後，讓然需要給出**特徵圖的ground truth label。

在416*416的影象上存在一些ground truth bounding boxes，這些ground truth包圍框的中心點落在了哪個grid cell中，則哪個grid cell的類別概率圖的ground truth就是對應的類別，同時前景的confidence score就是1，如果對於某些網格，沒有任何乙個ground truth 包圍框的中心點落在網格內，則它並不負責**。也就是說，類別概率圖的ground truth label是根據ground truth包圍框的中心點標註的。

分類分割檢測基礎

點雲資料處理（分類分割檢測）

工程實踐目標檢測分類分割模型訓練實踐流程

目標檢測與分類

分類 分割 檢測基礎

點雲資料處理（分類 分割 檢測）

工程實踐 目標檢測 分類 分割模型訓練實踐流程

目標檢測與分類

相關推薦

分類分割檢測基礎

點雲資料處理（分類分割檢測）

工程實踐目標檢測分類分割模型訓練實踐流程