吳恩達《卷積神經網路》(第二週下半部分)

2021-09-11 20:49:41 字數 2274 閱讀 5424

在上節中我們看到了inception網路模組的基礎內容,下面我們將學習如何將這些模組組合起來構建自己的inception網路。inception模組會將之前層的啟用或者輸出作為它的輸入作為前提,這是乙個28 * 28 * 192的輸入和上節中的一樣,我們詳細分析過的例子是先通過乙個1 * 1的層再通過乙個5 * 5 的層,1 * 1的層可能有16個通道,而5 * 5的層的輸出為28 * 28,32個通道這就是我們上節所說的例子,為了在這個3 * 3的卷積層中節省運算量,你也可以做相同的操作,這樣的話3 * 3的層將會輸出28 * 28 * 128。或許你還想將其直接通過乙個1 * 1的卷積層,這時就不必在後面再跟乙個1 * 1的層了,這樣的話過程就只有一步了假設這個層的輸出是28 * 28 * 64.最後是池化層,為了能在最後將這些輸出都連線起來,我們會使用same型別的padding來池化,使得輸出的高度和寬度依然是28 * 28,這樣才能將它與其他輸出連線起來。但是要注意的是,如果進行了最大池化即使用了 same padding,3 * 3的過濾器,stride為1,其輸出將會是28 * 28 * 192,其通道數量或者說深度將與輸入的28 * 28 * 192相同。所以看起來它會有很多通道,我們實際上要做的就是再加乙個1 * 1的卷積層,去進行我們在1 * 1卷積層將通道數量縮小(上節介紹),縮小到28 * 28 * 32,也就是使用32個維度為1 * 1 * 192的過濾器,所以輸出的維度其通道數縮小為32。這樣就避免了最後的輸出時池化層佔據了所有的通道,最後將這些方塊全都連線起來,在這個過程中把得到的各個層的通道都加起來,最後得到乙個28 * 28 * 256的輸出。通道連線實際就是之前看到過的把所有方塊連線在一起的操作,這就是乙個inception模組。

inception網路所做的就是將這些模組都組合到一起,下面是一張取自szegety et al.**中關於inception網路的。

會發現圖中有許多重複的模組,可能整張圖看起來很複雜,但如果只擷取其中乙個環節就會發現這是上面我們所說的inception模組。

所以說,inception網路是由許多inception模組組合起來的。

大部分計算機視覺任務使用很多的資料,所以資料增強經常是一種技巧。計算機視覺是乙個相當複雜的工作,你需要輸入影象的畫素值然後弄清楚中有什麼,需要學習乙個複雜的方程來做這件事,更多的資料對大多數計算機視覺任務都有幫助,不像其他領域有時候得到充足的資料但是效果並不怎樣,但是當下在計算機視覺方面計算機視覺的主要問題是沒有辦法得到充足的資料,對於機器學習的應用者這不是問題。但是對計算機視覺資料就遠遠不夠,所以就意味著當訓練計算機視覺模型的時候資料增強會有所幫助,無論是使用遷移學習使用別人的預訓練模型開始或者從源**開始訓練模型。

下面來看下資料增強的過程

最簡單的資料增強是垂直映象對稱,假如輸入影象為左邊的,然後將其翻轉得到右邊的影象。左邊影象是貓,然後映象對稱仍然是貓,這樣的操作保留了影象中的實體,是一種較好的資料增強技巧。另乙個經常使用的技巧是隨機剪裁,給定一張原始的影象,然後開始隨機剪裁可以得到不同的,放在資料集中,你的訓練集中有不同的剪裁後的影象。隨機剪裁並不是乙個完美的資料增強的方法,會出現如果你隨機剪裁的那一部分可能是實體的乙個角落的(圖中紅色框)。

映象和隨機修剪是經常使用的,當然理論上你也可以使用旋轉、剪下影象,可以對影象進行這樣的扭曲變換,介紹了很多形式的區域性彎曲。在實踐中,因為太複雜所以使用的很少。

另一種資料增強的方法是色彩轉換,有這樣一張然後給r、g、b三通道加上不同的失真值,在這個例子中要給紅色和藍色通道加值給綠色通道減值,紅色和藍色會產生紫色使整張看起來偏紫色,這樣做的目的就是改變r、g、b的值,使用這些值來改變顏色,在第二個例子中我們少用了一點紅色更多的綠色和藍色值,使整張偏黃一點,再下面是使用了更多的藍色僅僅多了一點紅色。在實踐中r、g、b的值是根據某種概率分布決定的。

這些改變顏色的,但是並未改變影象要識別實體的內容,這些顏色扭曲或者顏色變換的方法,這樣會使得你的學習演算法對**的顏色更改更具有魯棒性。關於顏色改變r、g、b的值時可以網上搜尋閱讀alexnet**中的細節也有pca顏色增強的開源實現方法。

吳恩達《卷積神經網路》

一 yolo algorithm 把輸入的分割成3x3個格仔或19x19個格仔,每個格仔進行檢測輸出八個特徵,3x3就輸出3x3x8個向量。yolo演算法的優點是不需要乙個演算法跑很多次。相反這是單次卷積實現,在處理計算時很多步驟都是共享的,而且執行速度非常快可以達到實時識別。物件中點的座標在哪個格...

吳恩達 卷積神經網路

卷積神經網路 卷積操作 設輸入n,filter為f,padding為p,步長 stride 為s 則卷積 不滿足結合律,滿足結合律還需要對filter進行水平和垂直翻轉 之後影象大小為 n 2p f s 1 向下取整 rgb影象卷積操作 同時相乘相加,三個channel輸出乙個值 為什麼cnn可以避...

吳恩達 卷積神經網路

1 灰度影象,邊緣檢測,使用核函式的缺點,影象的向量會不斷的縮小,另外乙個就是邊緣的向量相比於中間的向量被覆蓋的次數會少很多。解決這個的方法就是padding在影象的周圍再新增一圈向量。2 核函式通常是奇數維向量 3 卷積層,池化層 選出某一區域的最大值,另外還有 平均池化,就是求乙個小區域的均值 ...