語義分割概述

影象語義分割

一、影象語義分割含義及原理

含義：對分割後的影象加上語義標籤（用不同的顏色代表不同類別的物體），就是給分割後影象中的每一類物體加上標籤，輸入一般是彩色深度（rgb-d）影象。

要求（1）分割得到的不同區域內部平整，其紋理和灰度有相似性；

（2）相鄰語義分割區域對分割所依據的性質有明顯的差異；

（3）分割後不同語義區域的邊界有明確且規整。

二、dl（deep learning）時代的語義分割方法

1、全卷積神經網路（fcn）

fcn基本原理

可用來分類的神經網路最後幾層均是全連線層，會將輸入的二維影象壓縮至一維，即最後的分類結果。影象語義分割要求輸出是二維影象，所以我們需要將全連線層換成全卷積層（卷積核大小為輸入特徵圖大小），即全卷積網路。

fcn的特點

（1）卷積化（convolutional）

fcn直接進行畫素級別的端到端的語義分割，以vgg 16為例，將傳統的全連線層fc6和fc7均替換成卷積層，fc8替換成21通道（pascal voc資料報含21個類別：20個物件類和乙個背景類）的卷積層，作為網路最終輸出，這樣，網路的輸入和輸出均是二維影象。

（2）上取樣（upsample）

在池化過程中，下取樣會使不斷縮小，使得中的畫素點不能恢復到原圖，給畫素級別的訓練帶來困擾。需要對特徵圖進行上取樣（upsample），即反卷積（deconvolution）,fcn中用雙線性插值將特徵圖上取樣到原圖大小。

下取樣倍數不同將導致語義分割結果的精細程度不同，下取樣倍數越高，上取樣還原後得到的分割結果越粗略，因為較淺的（靠前的）卷積層的感受域較小，學習感知細節部分的能力比較強，而較深的（靠後的）卷積層感受域比較大，適合學習較為整體的、巨集觀的特徵，所以在較深的卷積層上進行反卷積還原，會損失很多細節特徵，導致分割結果很粗糙。

所以，在進行反卷積時，會採用一部分較淺層的反卷積資訊輔助疊加，來優化結果輸出。

（3）跳躍層（skip layer）

這個結構的作用就在於優化結果，因為如果將全卷積之後的結果直接上取樣得到的結果是很粗糙的，所以fcn將不同池化層的結果進行上取樣之後來優化輸出。具體結構如下：

2、條件隨機場和馬爾科夫隨機場(crf和mrf)

條件隨機場

將影象中的每個畫素點的類別都看作乙個變數，考慮任意兩個變數之間的關係，建立乙個完全圖。就是將畫素點之間的語義關係考慮進去，鼓勵相似的畫素分配相同的標籤，通過對crf能量函式進行優化求解，來對fcn影象語義分割**結果進行優化，得到最終分割結果。

全連線條件隨機場（dense crf）

為了取得更好的分割結果，研究人員將crf嵌入到fcn中，就形成了全連線的條件隨機場（dense crf），可以提高網路模型捕獲影象細節的能力，crf最後**結果的能量函式可以直接用來指導fcn模型引數的訓練。

crf as rnn

最開始的dense crf中的crf直接加在fcn後面，比較粗糙，在深度學習中，我們都追求端到端的系統，crf as rnn採用平均場近似的方法，將crf真正結合到fcn中，使用相乘相加的計算，將每一步都描述成一層類似卷積的計算。這樣既可以將crf結合進神經網路中，使前向傳播和後向傳播不存在問題，還可以進行迭代，不同的迭代次數得到結果的優化程度也不同（一般迭代取10次以內）。

mrf模型認為影象中某一點的特徵（一般是畫素點的灰度值等資訊）只與其附近的一小塊區域有關，而與其他區域無關。這是一種基於統計的影象分割演算法，模型引數比較少，空間約束力強，使用較為廣泛。

3、空洞卷積（atrous convolutions）

在不降低空間維度的前提下，增大了相應的感受域，可以改善分割網路。由於fcn的上取樣並不能將丟失的資訊全部無損的找回來，所以要採用空洞卷積。池化層的下取樣會帶來資訊損失，但去掉池化層會使網路的感受域變小，降低模型的**精度，而空洞卷積可以去掉池化層的同時不降低網路的感受域，就是採用乙個更加稀疏的卷積核來取代池化，在卷積核模板相同的情況下，每進行一次卷積都得到更多的特徵圖資訊。

語義分割概述

語義分割概述

語義分割綜述

初識語義分割

語義分割概述

語義分割概述

語義分割綜述

初識語義分割

相關推薦