計算機視覺中的細節問題 二

2021-09-26 08:04:24 字數 1308 閱讀 2108

目錄

(1)photometric distortions的含義

(2)mse、mae的含義

(3)影象金字塔與特徵金字塔

(4)rgba的含義

(5)目標檢測中樣本的難度是如何區分的

(6)什麼是機器學習模型的容量

(7)張量秩的含義

(8)目標檢測中樣本的難度是如何區分的

(9)全連線層的原理

(10)softmax的原理

指的是在輸入卷積神經網路之前對資料進行預處理的操作,比如改變亮度、飽和度等。

mse(mean square error)均方誤差,mse是真實值與**值的差值的平方然後求和平均。通過平方的形式便於求導,所以常被用作線性回歸的損失函式。mae(mean absolute error)平均絕對誤差。是絕對誤差的平均值。可以更好地反映**值誤差的實際情況。

在目標檢測或語義分割中影象金字塔指的是直接對影象進行上取樣而形成的層級結構,由於計算量大的原因這種方法現在已經被拋棄了。特徵金字塔主要是通過cnn的層來形成的特徵,廣泛的使用在目標檢測中。

數量大的樣本一般是簡單樣本,數量小的樣本一般是難樣本。

通俗地講,模型的容量是指它擬合各種函式的能力。

標量:秩為零的張量(只有大小,沒有方向,由1(3^0)部分組成);

向量:秩為一的張量(有大小和乙個方向,由3(3^1)部分組成);

dyad:秩為2的張量(有大小和兩個方向,由9(3^2)部分組成);

triad:秩為3的張量(有大小和三個方向,由27(3^3)部分組成);

這樣,張量和標量、向量……之間似乎有一一對應關係。但是,標量不是張量,雖然秩為0的張量是標量;同樣的,向量不是張量,雖然秩為1的張量是向量;dyad不是張量,但秩為2的張量是dyad(矩陣)。

根據iou來區分,一般小於0.3為負樣本,0.3到0.5為難樣本,大於0.5為正樣本。

如果輸入的feature map是2x2,那麼就需要把這個feature map 拉成4x1的列向量,如果你的feature map 的channels是3,也就是你的輸入是3x2x2,也就是相當於有了12個畫素點,你就需要把feature map 拉成12x1的列向量,這時候,再乘乙個權重,這個權重要把12個畫素點都包含進去,所以這個權重的矩陣形式應該是1x12,所以經過乙個全連線層後的輸出就是1x12x12x1=1x1,這時候需要看你的需要多少個1x1的神經元了,如果是3個的話,那麼輸出就是3x(1x12x12x1)=3x(1x1)。

softmax用於多分類過程中,它將多個神經元的輸出,對映到(0,1)區間內。假設我們有乙個陣列,v,vi表示v中的第i個元素,那麼這個元素的softmax值:

(計算機視覺)計算機視覺基礎

opencv cximage cimg freeimage opencv中vc庫的版本與visual studio版本的對應關係 vc8 2005 vc9 2008 vc10 2010 vc11 2012 vc12 2013 vc14 2015 vc15 2017 visual studio中的輔助...

計算機視覺

主講老師 曹洋 課程 視覺 基礎 底 層處理 影象處理 特徵提 取 中 層處理 影象分割 相機標 定 深度 估計 運 動估計 高層處 理 3d 重建 目 標識別 視 覺基 礎 底層 處理 圖 像處理 特徵提取 中層 處理 圖 像分割 相機標定 深度估 計 運動 估計 高層處理 3d重 建 目標 識別...

計算機視覺

眾所周知,計算機不認識影象,只認識數字。為了使計算機能夠 理解 影象,從而具有真正意義上的 視覺 本章我們將研究如何從影象中提取有用的資料或資訊,得到影象的 非影象 的表示或描述,如數值 向量和符號等。這一過程就是特徵提取,而提取出來的這些 非影象 的表示或描述就是特徵。有了這些數值或向量形式的特徵...