全景視覺空間直線檢測 計算機視覺 演算法與應用

2021-10-16 10:45:32 字數 3852 閱讀 2415

[2] 塞利斯基, 艾海舟. 計算機視覺:演算法與應用[m]. 清華大學出版社, 2012.

作者給出的章節結構圖如下

從左至右分別是基於影象(2d)、基於幾何形狀(3d)和基於光度學(表現)。從上至下,建模和抽象的層次在增加,下層的方法基於上面所提的演算法基礎上發展。其中的處理和依賴關係不是嚴格有序的,還存在其它精細的依賴和關係。橫向排列的主題也應辨證看待,因為多數視覺演算法涉及至少兩種不同的表達。

第二章是我們所看到和捕捉的影象的形成過程的概述。影象的形成有三個主要的組成部分。2.1節geometric image formation處理的是點、線、面,以及如何借助投影幾何和其它模型(including radial lens distortion,徑向透鏡畸變)將它們對映到影象上。2.2節photometric image formation包括輻射測量學(radiometry)和光學(optics)。2.3節介紹了感測器如何工作,包括取樣、混疊、色彩感知和攝像機內的壓縮。

趙紫晴:影象形成​zhuanlan.zhihu.com

第三章涉及影象處理,包括線性和非線性濾波(3.3節)、傅利葉變換(3.4節)、影象金字塔和小波(3.5節)、影象捲繞的幾何變換(3.6節)以及一些全域性優化方法例如正則化(regularization)和mrfs(markov random fields,馬爾可夫隨機場)(3.7節)。與影象處理不同的是,計算機視覺更注重優化方法的使用。第三章還介紹了一些應用,例如無縫影象拼接和影象復原。

第四章主要介紹特徵檢測和匹配(feature detection and matching)。特徵點的匹配是當前很多3d重建技術和識別技術的基礎,也是後續第6、7、9、14章節的基礎。這裡還介紹了邊緣和直線檢測

第六章幾何配準(geometric alignment)和攝像機標定(camera calibration)。6.1節用線性或非線性最小二乘法(linear or non-linear leastsquares)解決基本的基於特徵的配準問題。這裡還引入了其它的概念,例如不確定性加權(uncertainty weighting) 和魯棒回歸(robust regression)。6.2節介紹了基於特徵的配準可以應用在3d姿態估計問題(3d pose estimation)上,6.3節則講了這種配準方法如何用作攝像機內標定的構成部分。還介紹了活頁動畫的**配準、手持攝像機做3d姿態估計、單檢視恢復建築模型等應用。

第七章的主題是structure from motion(運動結構),包括3d照相機運動的即時恢復(simultaneous recovery of 3d camera motion)和收集跟蹤2d特徵來重建3d場景結構(3d scene structure from a collection of tracked 2d features)。7.1節從較簡單的3d point triangulation(3d點三角剖分)開始,即已知攝像機位置時如何根據匹配的特徵重建3d點。然後介紹了two-frame structure from motion的代數方法(algebraic techniques)和魯棒取樣方法(robust sampling techniques,例如ransac,其特徵匹配可以容忍部分錯誤)。第七章的第二部分描述了多幀運動結構,包括7.3節的factorization(因子分解),7.4節的光束平差法(bundle adjustment)以及7.5節的限定運動和結構模型(constrained motion and structure models)。這裡還給出了運動結構在視覺變形(view morphing)、稀疏3d模型重建(sparse 3d model construction)、移動匹配(match move)中的應用。

第八章回到處理影象亮度,也就是基於亮度的稠密運動估計(dense intensity-based motion estimation,optical flow)。8.1節從最簡單的運動模型translational motion(平移運動)開始,介紹了分層運動估計(hierarchical motion estimation)、傅利葉方法和迭代求精(iterative refinement)。接著在8.2節中介紹了可用於補償攝像機的旋轉和聚焦的引數化運動模型(parametric motion models),以及仿射和平面透視運動。在8.3節中將其推廣為基於樣條的運動模型(spline-based motion model)。最終在8.4節推廣到通用逐畫素的光流(general per-pixel optical flow),包括8.5節介紹的layered and learned motion models。這些技術廣泛應用於自動變形(automated morphing)、幀插值(frame interpolation)和基於運動的使用者介面。

第九章關注影象拼接,也就是大的全景圖和合成圖的形成。9.1節介紹了各種可能的運動模型,包括平面運動(planar motion)和純攝像機運動(pure camera rotation)。9.2節介紹全域性匹配(global alignment),這是光束平差法的特殊情況。接著介紹全景圖識別(panorama recognition),這是一種自動識別哪些影象實際形成了重疊的全景圖的技術。最後在9.3節介紹了影象合成(image compositing)和混合(blending)主題,主要關注於選擇哪些畫素並將它們混合在一起以掩蓋**差異的問題。

第十章介紹了計算攝影學的其它應用,即從一張或多張**裡建立新的**,通常基於10.1節所介紹的基於影象形成過程的精細建模和校準(careful modeling and calibration of the image formation process)。計算攝影學方法包括10.2節所介紹的歸併多****(multiple exposures)建立高動態範圍影象、10.3節的通過模糊去除和超解析度方法(super-resolution)來提高影象解析度、10.4節的影象編輯與合成(compositing)操作。10.5節還介紹了紋理分析(texture analysis)、影象合成(synthesis)、影象修復(inpainting)、非真實感渲染(non-photorealistic rendering)。

第十一章關注立體視覺匹配(stereo correspondence),它是攝像機位置已知下的運動估計問題的特殊情況。這使得立體視覺演算法可以在更小的匹配空間中搜尋,產生稠密深度估計,進而轉化成可見表面模型(visible su***ce models)(11.3節)。11.6節還介紹了多視角立體視覺演算法(multi-view stereo algorithms),可以呈現真實3d表面而不是單一深度圖。立體視覺匹配的應用有頭部和凝視追蹤(head and gaze tracking)、基於深度的背景替換(depth-based background replacement)。

第十四章介紹識別(recognition)。14.1和14.2節介紹人臉檢測和識別技術,然後在14.3節尋找和識別特定物體。接著在14.4節介紹了寬泛類屬的識別(recognition of broad categories)並在14.5節介紹了場景內容(scene context)在識別中的作用。

全景視覺空間直線檢測 視覺SLAM深度解讀

視覺slam是什麼?視覺slam主要是基於相機來完成環境的感知工作,相對而言,相機成本較低,容易放到商品硬體上,且影象資訊豐富,因此視覺slam也備受關注。目前,視覺slam可分為單目 雙目 多目 rgbd這三類,另還有魚眼 全景等特殊相機,但目前在研究和產品中還屬於少數,此外,結合慣性測量器件 i...

計算機視覺 全景拼接原理

特徵匹配用來計算影象之間的對映關係,得到每個匹配影象對之間的單應矩陣,結合上一步的對映模型,我們可以得到最終的影象變換序列,結合前面所提到的特徵,選取sift特徵描述子 關於sift描述,可以看之前的文章 一幅圖可以變化成另一幅影象處於相同座標系的影象,有 平移變換模型 只對影象進行相對於x軸和y軸...

(計算機視覺)計算機視覺基礎

opencv cximage cimg freeimage opencv中vc庫的版本與visual studio版本的對應關係 vc8 2005 vc9 2008 vc10 2010 vc11 2012 vc12 2013 vc14 2015 vc15 2017 visual studio中的輔助...