關於卷積核為何有效的初級理解

傳統的神經網路mlp和其他的淺層演算法如svm等，是把一張影象先拉直再輸入，後續也都處於一維的狀態。而一張rgb影象共有9個維度的資訊，分別是rgb值和對應的位置：r+g+b+xr+yr+xg+yg+xb+yb。mlp丟失了其中絕大部分的位置資訊，在僅有的rgb值3個維度的資訊去解決9個維度的問題，難度非常大，人的智力都不一定可以（那些看01數字判斷程式執行、最強大腦裡面的外星人也許可以）。

而在卷積神經網路中，其輸入與影象原始的維度一致，完整的保留了影象的rgb值和位置資訊共9個維度的資訊，且進行卷積處理時，使用2d卷積核與rgb三個通道上同一位置不同通道上的點進行內積（其實卷積核是3d的，但是通道方向不算卷積核的乙個維數，因此名字是2d卷積核，不知道為什麼這麼規定），這與人眼類似，人的眼睛看一張rgb時也是將影象看成乙個整體，而非分為3層逐一檢視。

三體**裡面說在四維空間裡面，看三維的物體就不分里側和外側，所以才能夠破壞光滑的水滴，隔空無創取心臟、大腦等等，三維的資訊完全暴露出來。在不丟失影象維度的情況下，使用卷積核處理視覺識別的問題就取得了這麼好的效果，那如果有更多的資訊進來呢？例如深度、時間、味道、聲音、觸感甚至情感，會是乙個什麼樣呢？如果是在視覺識別裡面能夠有更多的維度，效果會更好。

關於卷積核為何有效的初級理解

卷積核的理解

卷積核的理解和引數確定

SVM中關於核函式的理解

關於卷積核為何有效的初級理解

卷積核的理解

卷積核的理解和引數確定

SVM中關於核函式的理解

相關推薦