李巨集毅學習記錄1 基礎知識

1：零填充就是對輸入量在邊界上用零進行填充。可以控制輸出資料體的空間尺寸（最常用的是用來保持輸入資料體在空間上的尺寸，這樣輸入和輸出的寬高都相等）。

2：各種池化的區別：

mean-pooling，即對鄰域內特徵點只求平均

max-pooling，即對鄰域內特徵點取最大

據相關理論，特徵提取的誤差主要來自兩個方面：（1）鄰域大小受限造成的估計值方差增大；（2）卷積層引數誤差造成估計均值的偏移。一般來說，mean-pooling能減小第一種誤差，更多的保留影象的背景資訊，max-pooling能減小第二種誤差，更多的保留紋理資訊。

stochastic-pooling則介於兩者之間，通過對畫素點按照數值大小賦予概率，再按照概率進行亞取樣，在平均意義上，與mean-pooling近似，在區域性意義上，則服從max-pooling的準則。

3：上取樣與下取樣

影象的上取樣（upsampling）與下取樣（subsampled）

縮小影象（或稱為下取樣（subsampled）或降取樣（downsampled））的主要目的有兩個：

1、使得影象符合顯示區域的大小；2、生成對應影象的縮圖。

放大影象（或稱為上取樣（upsampling）或影象插值（interpolating））的主要目的是：

放大原影象,從而可以顯示在更高解析度的顯示裝置上。對影象的縮放操作並不能帶來更多關於該影象的資訊, 因此影象的質量將不可避免地受到影響。然而，確實有一些縮放方法能夠增加影象的資訊，從而使得縮放後的影象質量超過原圖質量的。

下取樣原理：對於一幅影象i尺寸為m*n，對其進行s倍下取樣，即得到(m/s)*(n/s)尺寸的得解析度影象，當然s應該是m和n的公約數才行，如果考慮的是矩陣形式的影象，就是把原始影象s*s視窗內的影象變成乙個畫素，這個畫素點的值就是視窗內所有畫素的均值：

上取樣原理：影象放大幾乎都是採用內插值方法，即在原有影象畫素的基礎上在畫素點之間採用合適的插值演算法插入新的元素。

無論縮放影象（下取樣）還是放大影象（上取樣），取樣方式有很多種。如最近鄰插值，雙線性插值，均值插值，中值插值等方法。在alexnet中就使用了較合適的插值方法。各種插值方法都有各自的優缺點。

4：maxout層

我們可以把maxout 看成是網路的啟用函式層

為了簡單起見，假設我們網路第i層有2個神經元x1、x2，第i+1層的神經元個數為1個，如下圖所示：

(1)以前mlp的方法。我們要計算第i+1層，那個神經元的啟用值的時候，傳統的mlp計算公式就是：

z=w*x+b

out=f(z)

其中f就是我們所謂的啟用函式，比如sigmod、relu、tanh等。

(2)maxout 的方法。如果我們設定maxout的引數k=5，maxout層就如下所示：

相當於在每個輸出神經元前面又多了一層。這一層有5個神經元，此時maxout網路的輸出計算公式為：

z1=w1*x+b1

z2=w2*x+b2

z3=w3*x+b3

z4=w4*x+b4

z5=w5*x+b5

out=max(z1,z2,z3,z4,z5)

所以這就是為什麼採用maxout的時候，引數個數成k倍增加的原因。本來我們只需要一組引數就夠了，採用maxout後，就需要有k組引數。