吳恩達 深度學習 卷積神經網路 目標檢測

2021-08-22 19:43:32 字數 2051 閱讀 5373

我們希望在圖中識別不同類別的目標,通過一系列卷積操作,得到輸出

y = [p_c(是否有目標0/1),

bx,by(目標中間相對於的位置座標),

bh,bw(邊界框的尺寸),

c1,c2,c3.....cn(根據類別多少的one-hot)]

如人臉68個特徵點,人體骨骼特徵點等

使用5x5,1x1卷積來實現全連線層

通過卷積的方式實現視窗滑動的效果,如下我們用14x14的視窗的到乙個輸出,對於更大的,通過設定步長,完成卷積,結果相當於不同視窗區域得到的結果

紅色的框 p 代表原始的proposal, 綠色的框 g 代表目標的 ground truth, 我們的目標是尋找一種關係使得輸入原始的視窗 p 經過對映得到乙個跟真實視窗 g 更接近的回歸視窗g^。

給定(px,py,pw,ph)尋找一種對映f, 使得f(px,py,pw,ph)=(gx^,gy^,gw^,gh^) 並且(gx^,gy^,gw^,gh^)≈(gx,gy,gw,gh)

交並比iou用來衡量兩個邊界框的重疊程度

對於同類目標的邊界框,

1,首先篩選掉概率低於既定值的邊界框

2,選取概率最大的邊界框

3,篩選掉那些與之iuo>0.5(自定)的邊界框

然後重複2,3

當有多類目標時,我們對每一類單獨進行非最大值抑制

對於多個物體中心重疊在乙個格仔的情況,如下圖,每種目標的形狀會有區別,高瘦的人,扁寬的車。

通過這兩個anchor box來界定是哪個目標,因此這個格仔的輸出也就變成了16個引數

yolo有s*s的格仔,每個格仔包含b個邊界框,格仔對應的**總的類別數為c種類別。

1)將尺寸放縮到448*448大小; 

2)將塞給cnn網路,進行處理; 

3)進行nms(非極大值抑制)進行bbox的冗餘裁剪,處理掉大批的冗餘,得到最後的**結果。

1. 在影象中確定約1000-2000個候選框 (使用選擇性搜尋)

2. 每個候選框內影象塊縮放至相同大小,並輸入到cnn內進行特徵提取 

3. 對候選框中提取出的特徵,使用分類器判別是否屬於乙個特定類 

4. 對於屬於某一特徵的候選框,用回歸器進一步調整其位置

1. 在影象中確定約1000-2000個候選框 (使用選擇性搜尋)

2. 對整張輸進cnn,得到feature map

3. 找到每個候選框在feature map上的對映patch,將此patch作為每個候選框的卷積特徵輸入到spp layer和之後的層

4. 對候選框中提取出的特徵,使用分類器判別是否屬於乙個特定類 

5. 對於屬於某一特徵的候選框,用回歸器進一步調整其位置

1. 對整張輸進cnn,得到feature map

2. 卷積特徵輸入到rpn,得到候選框的特徵資訊

3. 對候選框中提取出的特徵,使用分類器判別是否屬於乙個特定類 

4. 對於屬於某一特徵的候選框,用回歸器進一步調整其位置

吳恩達 深度學習筆記《卷積神經網路》

cnn的提出以及優勢 簡單卷積網路示例 池化層 其他使用卷積的原因 相比標準神經網路,對於大量的輸入資料,卷積過程有效地減少了 cnn 的引數數量,原因有以下兩點 1,引數共享 parameter sharing 特徵檢測如果適用於的某個區域,那麼它也可能適用於的其他區域。即在卷積過程中,不管輸入有...

吳恩達《卷積神經網路》

一 yolo algorithm 把輸入的分割成3x3個格仔或19x19個格仔,每個格仔進行檢測輸出八個特徵,3x3就輸出3x3x8個向量。yolo演算法的優點是不需要乙個演算法跑很多次。相反這是單次卷積實現,在處理計算時很多步驟都是共享的,而且執行速度非常快可以達到實時識別。物件中點的座標在哪個格...

吳恩達 卷積神經網路

卷積神經網路 卷積操作 設輸入n,filter為f,padding為p,步長 stride 為s 則卷積 不滿足結合律,滿足結合律還需要對filter進行水平和垂直翻轉 之後影象大小為 n 2p f s 1 向下取整 rgb影象卷積操作 同時相乘相加,三個channel輸出乙個值 為什麼cnn可以避...