語義分割綜述

目前語義分割的流行框架可以分為前端、後端。前端採用fcn定位不同類別的物體，後端採用rf(crf、mrf)精確定位物體邊界。也就是說，前端解決「是什麼(what)」，後端解決「在**(where)」。

可以把語義分割網路分為兩類：以fcn為代表的編解碼器(encode-decode)網路；以deeplab為代表的空洞卷積(dilate convolution)網路。[參考]

去掉全連線層的理論依據：

全連線層引數矩陣的大小限制了輸入資料的維度(對影象來說，輸入必須是固定解析度大小)。

全連線層的密集連線方式使它包含了網路的大部分引數。

全連線層和卷積層沒有本質區別。

全卷積網路。matan(1991)第一次把卷積網路擴充套件成能接受任意輸入，他們擴充套件lenet用於識別數字串。全卷積計算被諸如滑動視窗檢測、語義分割、eigen的影象復原等廣泛採用。用全卷積訓練的卻很少，在tompson的人體位姿估計中效果很好，但作者並沒有解釋、分析這種方法。

無監督域適應(unsupervised domain adaptation)是遷移學習的一種。

參考[1] 影象語義分割之fcn和crf，知乎

[2] fcn1，fcn2，csdn部落格