計算機視覺 經典解析網路

2022-09-10 07:48:10 字數 1700 閱讀 7252

層數統計說明:

影象在輸入模型之前都對其進行了去均值操作,因為絕對數值在對影象分類的過程中是沒有意義的,有意義的是影象之間的相對數值。

maxpool:

卷積層操作時為了提取影象的特徵,在卷積層後需要接入全連線層來對提取的特徵進行分類操作。在卷積操作之後得到的是乙個hxwxd的特徵向量圖組,需要對其進行拉伸為向量才能放入全連線層進行訓練。

重要說明:

重要技巧:

卷積層在做什麼:

相較於alexnet網路結構基本一致,其主要改進點:

vgg網路共享:

之前去均值處理是使用每乙個畫素點的rgb各個通道的均值進行相減,也就是有多少個畫素點,就有多少個rgb均值。而vgg是一張整體只算乙個rgb均值,然後讓每個畫素點都減去這個rgb均值。區別在於乙個是乙個一,乙個是一對多。

vgg16是現在依舊使用很多的方法。它包含13(2+2+3+3+3)個卷積層與3個全連線層。分為5段,每一段中卷積層的卷積核個數均相同。所有卷積層均採用3×3的卷積核及relu啟用函式。池化層均採用最大池化,其視窗大小為2×2,步長為2。經過一次池化操作,其後卷積層的卷積核個數就增加一倍,直至達到512。全連線層中也使用了dropout策略。

小卷積核有哪些優勢:

為什麼vgg網路前四段裡,每經過一次池化操作,卷積核個數就增加一倍?

為什麼卷積核個數增加到512後就不再增加了?

vgg證明了網路深度越深,網路模型效能越好;小卷積核能**大卷積核的結果且比大卷積核擁有更少的引數。

googlenet創新點:

串聯結構(如vgg)存在的問題:後面的卷積層只能處理前面層輸出的特徵圖;前層因某些原因(比如感受野限制)丟失重要資訊,後層無法找回。

解決方法:每一層中盡量多的保留輸入訊號中的資訊。

inception v1優點:層數更深、引數更少、計算效率更高、非線性表達能力更強。

採用兩個輔助分類損失的原因:

平均池化向量化與直接展開向量化有什麼區別?

利用1×1卷積進行壓縮會損失資訊嗎?

resnet具有以下貢獻:

解決方案:

所謂殘差就是輸入和輸出之間的差異。

殘差結構:

為什麼殘差網路效能這麼好?

殘差網路和inception v4是公認的推廣效能最好的兩個分類模型。

視覺識別任務:分類、語義分割、目標檢測、例項分割

思路:全卷積網路能夠減少畫素點的運算量,加快神經網路。

問題:解決方案:

上取樣方法:

單目標(分類+定位):

利用先前的影象分類網路模型,來進一步訓練得到物體的邊界核。

r-cnn:

fast r-cnn:

rol pool:

roi align:

faster r-cnn:

一階段目標檢測:yolo/ssd/retinanet

例項分割

mask r-cnn:在faster r-cnn中加入了mask prediction。

(計算機視覺)計算機視覺基礎

opencv cximage cimg freeimage opencv中vc庫的版本與visual studio版本的對應關係 vc8 2005 vc9 2008 vc10 2010 vc11 2012 vc12 2013 vc14 2015 vc15 2017 visual studio中的輔助...

計算機視覺

主講老師 曹洋 課程 視覺 基礎 底 層處理 影象處理 特徵提 取 中 層處理 影象分割 相機標 定 深度 估計 運 動估計 高層處 理 3d 重建 目 標識別 視 覺基 礎 底層 處理 圖 像處理 特徵提取 中層 處理 圖 像分割 相機標定 深度估 計 運動 估計 高層處理 3d重 建 目標 識別...

計算機視覺

眾所周知,計算機不認識影象,只認識數字。為了使計算機能夠 理解 影象,從而具有真正意義上的 視覺 本章我們將研究如何從影象中提取有用的資料或資訊,得到影象的 非影象 的表示或描述,如數值 向量和符號等。這一過程就是特徵提取,而提取出來的這些 非影象 的表示或描述就是特徵。有了這些數值或向量形式的特徵...