漫談計算機視覺

2021-08-31 05:48:08 字數 903 閱讀 8394

從輸入圖象到資訊獲取之間存在著巨大的認知空白,其間需要經過一系列十分複雜的資訊處理和理解過程。想象一下,在火車站,我們可以從茫茫人群中精確地找出要迎接的夥伴,這遠非現在的機器學習、搜尋引擎所能解決的。這再次證明人類視覺系統的強大。對人類視覺過程本質的認識,乃是揭開機器視覺進步的關鍵。對計算機而言,所有的輸入均是矩陣,機器視覺的目的,就是要從這些矩陣中獲取有用的資訊。

計算機對影象內容的識別,按照難度、應用場景、所使用方法的不同,可以劃分為三類:

1、近重複檢索,主要是查詢同源的不同版本(光照、旋轉、縮放、模糊、logo、水印等、裁剪)

2、場景檢索,又稱物件識別檢索,主要是查詢在不同場景中出現同一物體,主要需要克服遮擋、仿射、視角改變等效應

3、同類物體檢索,即平時所說的cbir系統,往往需要一些訓練、學習過程。

下圖很好地說明了這三類檢索的區別:

[img]

上述1的近重複檢索,採用edge histogram、scalable color等mpeg-7規範產生的影象簽名來構建系統,輔以locality sensitive hash等相似檢索的資料結構,能夠達到不錯的效果,可以用於版權保護等應用。

上述3的同類物體檢索,自從ibm最早提出基於cbir的qbir時,就有廣泛的研究。但過於複雜的模型構建以及難以提高的準確率和召回率,一直是難以逾越的鴻溝。要讓計算機理解一副

,其難度遠遠大於識別一副。

[img]

[img]

這類特徵點共同的特點在於,對旋轉、縮放、模糊、亮度、仿射變形、視角變換等都具有很強的抵抗性,如下圖所示:

[img]

[img]

當前日趨成熟的文字搜尋引擎,有值得我們借鑑的地方嗎?

[img]

類似的方式,我們是否也可以對搜尋採用類似的「視覺詞庫」的方式呢?

[img]

[img]

漫談計算機視覺

從輸入圖象到資訊獲取之間存在著巨大的認知空白,其間需要經過一系列十分複雜的資訊處理和理解過程。想象一下,在火車站,我們可以從茫茫人群中精確地找出要迎接的夥伴,這遠非現在的機器學習 搜尋引擎所能解決的。這再次證明人類視覺系統的強大。對人類視覺過程本質的認識,乃是揭開機器視覺進步的關鍵。對計算機而言,所...

(計算機視覺)計算機視覺基礎

opencv cximage cimg freeimage opencv中vc庫的版本與visual studio版本的對應關係 vc8 2005 vc9 2008 vc10 2010 vc11 2012 vc12 2013 vc14 2015 vc15 2017 visual studio中的輔助...

計算機視覺

主講老師 曹洋 課程 視覺 基礎 底 層處理 影象處理 特徵提 取 中 層處理 影象分割 相機標 定 深度 估計 運 動估計 高層處 理 3d 重建 目 標識別 視 覺基 礎 底層 處理 圖 像處理 特徵提取 中層 處理 圖 像分割 相機標定 深度估 計 運動 估計 高層處理 3d重 建 目標 識別...