基於深度學習演算法和傳統立體匹配演算法的雙目立體視覺

2021-10-03 08:23:39 字數 2355 閱讀 7867

人類通過眼睛感知世界、獲取資訊。人類獲取資訊的方式有很多種,可通過眼睛、耳朵、觸覺、嗅覺、味覺等,但我們接受到的絕大部分資訊都是通過視覺的方式獲取到的。由此可見,視覺系統在人類的生存、生產、發展中起到了極其重要的作用。隨著計算機技術、智慧型機械人等的廣泛研究與應用,不少科學家嘗試將人類視覺系統功能賦予機器。讓機器獲取與人類一般的視覺能力,是許多科研工作者長期以來的追求。目前,雖然還不能夠使機器獲得與人類一模一樣的視覺感知能力與認知能力,但自上世紀中葉以來,各種視覺技術理論與影象處理技術得到了飛速的發展,我們正朝著這一目標不斷前進。

立體視覺是計算機視覺的重要組成部分,而雙目立體視覺又是立體視覺的乙個重要分支。它是基於兩幅影象的,通過模擬人眼視覺的方式,由兩個視點對同乙個物體進行觀察,具體是由不同位置的兩台相機(或一台相機經過旋轉和移動)對同一場景進行拍攝,然後通過三角測量的原理來計算空間點在兩幅影象中畫素間的視差,根據視差來恢復目標物體的深度資訊,最後可以根據深度資訊來恢復物體的三維形狀。

作為乙個完整的計算機視覺三維重建系統必須包含以下幾個部分:影象採集、影象預處理、相機標定、特徵點提取和立體匹配、深度資訊計算、三維座標計算以及後處理等。比較關鍵的技術有相機標定技術、影象立體匹配以及空間點的三維座標計算三項。

立體視覺原理示意圖如下圖所示,右眼能看到被視物體的右側,左眼能看到被視物體的左側,左右眼視網膜上形成2副存在視差的影象,經大腦融合處理後,大腦根據視差判斷物體的空間位置關係,使人產生立體視覺。

在機器視覺中,以仿生學原理獲取視差影象,人類立體視覺獲取的視差以角度表示,計算機獲取的視差大小則以2 副影象之間的畫素座標差值表示。機器視覺中,需通過3d顯示裝置呈現立體景象,根據物體遠近表現的視差,分為正視差、負視差和零視差,並以此形成立體感。

左右檢視即來自於左右眼睛或攝像頭的影象,我們網路的訓練用到的左右檢視是來自middlebury資料庫中供立體匹配演算法研究的一組參考影象。

我們採用了基於全卷積神經網路的立體匹配,利用大量的影象對與真實視差影象進行訓練,學習影象對到視差圖的直接對映。視差平滑假設,然後解決乙個優化問題。卷積神經網路可以進行端到端的學習,立體匹配則要求進行畫素級別的視差計算,一般的卷積神經網路的無結構輸出結果無法滿足要求。我們通過全卷積神經網路可以對任意尺寸的影象進行輸入,進行端到端的學習,進行畫素級別的**,全卷積網路結構採用雙塔式網路結構,去掉全連線層,輸入為同一場景對應的兩張的影象,輸出為視差圖。

census 變換在實際場景中,造成亮度差異的原因有很多,如由於左右攝像機不同的視角接受到的光強不一致,攝像機增益、電平可能存在差異,以及影象採集不同通道的雜訊不同等,cencus方法保留了視窗中畫素的位置特徵,並且對亮度偏差較為魯棒,簡單講就是能夠減少光照差異引起的誤匹配。

在檢視中選取任一點,以該點為中心劃出乙個例如3 × 3 的矩形,矩形中除中心點之外的每一點都與中心點進行比較,灰度值小於中心點即記為1,灰度大於中心點的則記為0,以所得長度為 8 的只有 0 和 1 的序列作為該中心點的 census 序列,即中心畫素的灰度值被census 序列替換。經過census變換後的影象使用漢明距離計算相似度,所謂影象匹配就是在視差圖中找出與參考畫素點相似度最高的點,而漢明距正是視差影象素與參考畫素相似度的度量。具體而言,對於欲求取視差的左右檢視,要比較兩個檢視中兩點的相似度,可將此兩點的census值逐位進行異或運算,然後計算結果為1 的個數,記為此兩點之間的漢明值,漢明值是兩點間相似度的一種體現,漢明值愈小,兩點相似度愈大實現演算法時先異或再統計1的個數即可,漢明距越小即相似度越高。

我們深度學習演算法的實驗結果的最終誤差率只有7.25%!!!

![在這裡插入描述](

基於深度學習立體匹配中的 Cost Volume

load psmnet number of model parameters 5224768 cnn out torch.size 1,128,96,312 output branch1 before torch.size 1,32,1,4 第一層金字塔上取樣前的圖 output branch1 t...

立體匹配演算法 RankTransform

1.基本介紹 立體匹配演算法,關鍵是計算左右圖對應點的匹配代價。但是基於畫素的匹配方法有乙個問題就是對於重複紋理區域,支援視窗選取太小則不利於獲取準確的匹配代價,視窗選取過大則計算複雜度過高。對於這種情況,我們應該適當的考慮支援視窗的結構資訊,但是結構資訊如何表示,怎樣定量計算,這裡就要用到標題中提...

立體匹配演算法 RankTransform

1.基本介紹 立體匹配演算法,關鍵是計算左右圖對應點的匹配代價。但是基於畫素的匹配方法有乙個問題就是對於重複紋理區域,支援視窗選取太小則不利於獲取準確的匹配代價,視窗選取過大則計算複雜度過高。對於這種情況,我們應該適當的考慮支援視窗的結構資訊,但是結構資訊如何表示,怎樣定量計算,這裡就要用到標題中提...