語義分割概述

2021-09-05 10:55:56 字數 2380 閱讀 9388

影象語義分割

一、影象語義分割含義及原理

含義:對分割後的影象加上語義標籤(用不同的顏色代表不同類別的物體),就是給分割後影象中的每一類物體加上標籤,輸入一般是彩色深度(rgb-d)影象。

要求(1)分割得到的不同區域內部平整,其紋理和灰度有相似性;

(2)相鄰語義分割區域對分割所依據的性質有明顯的差異;

(3)分割後不同語義區域的邊界有明確且規整。

二、dl(deep learning)時代的語義分割方法

1、全卷積神經網路(fcn)

fcn基本原理

可用來分類的神經網路最後幾層均是全連線層,會將輸入的二維影象壓縮至一維,即最後的分類結果。影象語義分割要求輸出是二維影象,所以我們需要將全連線層換成全卷積層(卷積核大小為輸入特徵圖大小),即全卷積網路。

fcn的特點

(1)卷積化(convolutional)

fcn直接進行畫素級別的端到端的語義分割,以vgg 16為例,將傳統的全連線層fc6和fc7均替換成卷積層,fc8替換成21通道(pascal voc資料報含21個類別:20個物件類和乙個背景類)的卷積層,作為網路最終輸出,這樣,網路的輸入和輸出均是二維影象。

(2)上取樣(upsample)

在池化過程中,下取樣會使不斷縮小,使得中的畫素點不能恢復到原圖,給畫素級別的訓練帶來困擾。需要對特徵圖進行上取樣(upsample),即反卷積(deconvolution),fcn中用雙線性插值將特徵圖上取樣到原圖大小。

下取樣倍數不同將導致語義分割結果的精細程度不同,下取樣倍數越高,上取樣還原後得到的分割結果越粗略,因為較淺的(靠前的)卷積層的感受域較小,學習感知細節部分的能力比較強,而較深的(靠後的)卷積層感受域比較大,適合學習較為整體的、巨集觀的特徵,所以在較深的卷積層上進行反卷積還原,會損失很多細節特徵,導致分割結果很粗糙。

所以,在進行反卷積時,會採用一部分較淺層的反卷積資訊輔助疊加,來優化結果輸出。

(3)跳躍層(skip layer)

這個結構的作用就在於優化結果,因為如果將全卷積之後的結果直接上取樣得到的結果是很粗糙的,所以fcn將不同池化層的結果進行上取樣之後來優化輸出。具體結構如下:

2、條件隨機場和馬爾科夫隨機場(crf和mrf)

條件隨機場

將影象中的每個畫素點的類別都看作乙個變數,考慮任意兩個變數之間的關係,建立乙個完全圖。就是將畫素點之間的語義關係考慮進去,鼓勵相似的畫素分配相同的標籤,通過對crf能量函式進行優化求解,來對fcn影象語義分割**結果進行優化,得到最終分割結果。

全連線條件隨機場(dense crf)

為了取得更好的分割結果,研究人員將crf嵌入到fcn中,就形成了全連線的條件隨機場(dense crf),可以提高網路模型捕獲影象細節的能力,crf最後**結果的能量函式可以直接用來指導fcn模型引數的訓練。

crf as rnn

最開始的dense crf中的crf直接加在fcn後面,比較粗糙,在深度學習中,我們都追求端到端的系統,crf as rnn採用平均場近似的方法,將crf真正結合到fcn中,使用相乘相加的計算,將每一步都描述成一層類似卷積的計算。這樣既可以將crf結合進神經網路中,使前向傳播和後向傳播不存在問題,還可以進行迭代,不同的迭代次數得到結果的優化程度也不同(一般迭代取10次以內)。

mrf模型認為影象中某一點的特徵(一般是畫素點的灰度值等資訊)只與其附近的一小塊區域有關,而與其他區域無關。這是一種基於統計的影象分割演算法,模型引數比較少,空間約束力強,使用較為廣泛。

3、空洞卷積(atrous convolutions)

在不降低空間維度的前提下,增大了相應的感受域,可以改善分割網路。由於fcn的上取樣並不能將丟失的資訊全部無損的找回來,所以要採用空洞卷積。池化層的下取樣會帶來資訊損失,但去掉池化層會使網路的感受域變小,降低模型的**精度,而空洞卷積可以去掉池化層的同時不降低網路的感受域,就是採用乙個更加稀疏的卷積核來取代池化,在卷積核模板相同的情況下,每進行一次卷積都得到更多的特徵圖資訊。

語義分割概述

本文大多來自方便讀 使用 影象語義分割 semantic segmentation 從字面意思上理解就是讓計算機根據影象的語義來進行分割,例如讓計算機在輸入下面左圖的情況下,能夠輸出右圖。語義在語音識別中指的是語音的意思,在影象領域,語義指的是影象的內容,對意思的理解,並對不同部分進行標註,圖中紅色...

語義分割綜述

目前語義分割的流行框架可以分為前端 後端。前端採用fcn定位不同類別的物體,後端採用rf crf mrf 精確定位物體邊界。也就是說,前端解決 是什麼 what 後端解決 在 where 可以把語義分割網路分為兩類 以fcn為代表的編解碼器 encode decode 網路 以deeplab為代表的...

初識語義分割

正式接觸語義分割應該是2018年3月份左右的事情了。在此之前,作為一名遙感專業的學生,我所接觸最多的和語義分割相關的詞應該是遙感影象分類。遙感常應用於進行大面積土地利用調查,因此給定一幅遙感影象,需要按照建築物,地面,農田,河流等地面場景將其劃分為不同的類別,這與語義分割的目標是完全一致的,只不過應...