關於卷積核為何有效的初級理解

2021-08-09 06:35:06 字數 578 閱讀 2102

傳統的神經網路mlp和其他的淺層演算法如svm等,是把一張影象先拉直再輸入,後續也都處於一維的狀態。而一張rgb影象共有9個維度的資訊,分別是rgb值和對應的位置:r+g+b+xr+yr+xg+yg+xb+yb。mlp丟失了其中絕大部分的位置資訊,在僅有的rgb值3個維度的資訊去解決9個維度的問題,難度非常大,人的智力都不一定可以(那些看01數字判斷程式執行、最強大腦裡面的外星人也許可以)。

而在卷積神經網路中,其輸入與影象原始的維度一致,完整的保留了影象的rgb值和位置資訊共9個維度的資訊,且進行卷積處理時,使用2d卷積核與rgb三個通道上同一位置不同通道上的點進行內積(其實卷積核是3d的,但是通道方向不算卷積核的乙個維數,因此名字是2d卷積核,不知道為什麼這麼規定),這與人眼類似,人的眼睛看一張rgb時也是將影象看成乙個整體,而非分為3層逐一檢視。

三體**裡面說在四維空間裡面,看三維的物體就不分里側和外側,所以才能夠破壞光滑的水滴,隔空無創取心臟、大腦等等,三維的資訊完全暴露出來。在不丟失影象維度的情況下,使用卷積核處理視覺識別的問題就取得了這麼好的效果,那如果有更多的資訊進來呢?例如深度、時間、味道、聲音、觸感甚至情感,會是乙個什麼樣呢?如果是在視覺識別裡面能夠有更多的維度,效果會更好。

卷積核的理解

數字訊號處理中卷積 卷積一詞最開始出現在訊號與線性系統中,訊號與線性系統中討論的就是訊號經過乙個線性系統以後發生的變化。由於現實情況中常常是乙個訊號前一時刻的輸出影響著這一時刻的輸出,所在一般利用系統的單位響應與系統的輸入求卷積,以求得系統的輸出訊號 當然要求這個系統是線性時不變的 卷積的定義 卷積...

卷積核的理解和引數確定

卷積核相當於是乙個滑動視窗,一般像我們看到的3x3的卷積核就是指覆蓋3x3畫素的乙個滑動視窗,對於單個kernal size中的卷積核,滑動視窗3x3中的9個引數都是公用的,來處理乙個通道的輸入資料,比如 一般都是rgb三層,畫素大小為224x224,那個乙個輸入的大小為224x224x3,然後通過...

SVM中關於核函式的理解

如果訓練樣本不是線性可分的,那麼只要樣本的屬性是有限個,就可以將其對映到高維特徵空間,使這些樣本線性可分.問題 為什麼要讓這些樣本線性可分?當對映到高維空間後,想要得到模型 function 那麼計算難度是非常大的.此時我們可以使用核函式來簡化計算.那麼什麼樣的函式可以作為核函式呢?只要乙個對稱函式...