計算機視覺經典解析網路

層數統計說明：

影象在輸入模型之前都對其進行了去均值操作，因為絕對數值在對影象分類的過程中是沒有意義的，有意義的是影象之間的相對數值。

maxpool：

卷積層操作時為了提取影象的特徵，在卷積層後需要接入全連線層來對提取的特徵進行分類操作。在卷積操作之後得到的是乙個hxwxd的特徵向量圖組，需要對其進行拉伸為向量才能放入全連線層進行訓練。

重要說明：

重要技巧：

卷積層在做什麼：

相較於alexnet網路結構基本一致，其主要改進點：

vgg網路共享：

之前去均值處理是使用每乙個畫素點的rgb各個通道的均值進行相減，也就是有多少個畫素點，就有多少個rgb均值。而vgg是一張整體只算乙個rgb均值，然後讓每個畫素點都減去這個rgb均值。區別在於乙個是乙個一，乙個是一對多。

vgg16是現在依舊使用很多的方法。它包含13（2+2+3+3+3）個卷積層與3個全連線層。分為5段，每一段中卷積層的卷積核個數均相同。所有卷積層均採用3×3的卷積核及relu啟用函式。池化層均採用最大池化，其視窗大小為2×2，步長為2。經過一次池化操作，其後卷積層的卷積核個數就增加一倍，直至達到512。全連線層中也使用了dropout策略。

小卷積核有哪些優勢：

為什麼vgg網路前四段裡，每經過一次池化操作，卷積核個數就增加一倍？

為什麼卷積核個數增加到512後就不再增加了？

vgg證明了網路深度越深，網路模型效能越好；小卷積核能**大卷積核的結果且比大卷積核擁有更少的引數。

googlenet創新點：

串聯結構（如vgg）存在的問題：後面的卷積層只能處理前面層輸出的特徵圖；前層因某些原因（比如感受野限制）丟失重要資訊，後層無法找回。

解決方法：每一層中盡量多的保留輸入訊號中的資訊。

inception v1優點：層數更深、引數更少、計算效率更高、非線性表達能力更強。

採用兩個輔助分類損失的原因：

平均池化向量化與直接展開向量化有什麼區別？

利用1×1卷積進行壓縮會損失資訊嗎？

resnet具有以下貢獻：

解決方案：

所謂殘差就是輸入和輸出之間的差異。

殘差結構：

為什麼殘差網路效能這麼好？

殘差網路和inception v4是公認的推廣效能最好的兩個分類模型。

視覺識別任務：分類、語義分割、目標檢測、例項分割。

思路：全卷積網路能夠減少畫素點的運算量，加快神經網路。

問題：解決方案：

上取樣方法：

單目標（分類+定位）：

利用先前的影象分類網路模型，來進一步訓練得到物體的邊界核。

r-cnn：

fast r-cnn：

rol pool：

roi align：

faster r-cnn：

一階段目標檢測：yolo/ssd/retinanet

例項分割

mask r-cnn：在faster r-cnn中加入了mask prediction。

計算機視覺 經典解析網路

（計算機視覺）計算機視覺基礎

計算機視覺

計算機視覺

相關推薦

計算機視覺經典解析網路