MPEG 7 視覺描述符

2021-09-01 21:05:59 字數 3093 閱讀 6710

本文節選自《基於mpeg-7與內容的影象檢索技術的研究》。

mpeg-7 標準中視覺描述工具包括基本結構和描述符。本文主要介紹各描述符。

(1)顏色描述符

mpeg-7 主要定義了七種顏色描述符:顏色空間、主顏色、顏色的量化、顏色直

方圖、顏色布局、gof/gop 顏色、顏色結構、對顏色的特徵和結構進行描述。他們之間的關係如圖 2.2 所示。

①顏色空間,該描述符主要用於其它基於顏色的描述。當前描述所支援的顏色空間有:rgb、ycbcr、hsv、hmmd、關於 rgb 的線性變換矩陣、單色。

②顏色量化,該描述符定義了顏色空間的均勻量化。量化產生的維(bin)的數目是可配置的,這樣使得各種應用具有更大的靈活性。要使這個描述符在 mpeg-7 背景下有應用意義,例如表示主顏色值的含義,必須結合其它顏色描述符。

③主顏色,該描述符最適用於表示區域性(物件或影象區域)特徵,幾種顏色就足以表達我們感興趣區域的顏色資訊。當然,它也可以用於整個影象,例如旗幟影象或彩色商標影象。顏色量化用於提取每個區域/影象的少數代表顏色,並相應的計算出區域中的每種量化顏色所佔的百分比。同時還定義了整個描述符的空間相關性,用於相似性檢索。

④顏色布局,該描述符以一種緊湊的形式,有效的表達了顏色的空間分布。這種緊湊性以很小的計算代價,帶來高速的瀏覽和檢索。它提供影象與影象的匹配和超高速的片斷與片斷的匹配,這些匹配要求大量相似性計算的重複。由於該描述符表達了顏色特徵的布局資訊,因此它可以提供相當友好的使用者介面,例如使用其它顏色描述符中均不支援的手繪草圖查詢。

⑤可伸縮顏色,該描述符是 hsv 顏色空間的顏色直方圖(用 haar 變換編碼)。根據維的數目和位元表示的精度,它的二進位制表示在一定資料速率範圍內是可伸縮的。這個描述符主要用於影象與影象的匹配和基於顏色特徵的檢索,檢索的精度隨著描述中使用的位元數目的增加而增加。

⑥顏色結構,該描述符是乙個顏色特徵描述符,它既包括顏色內容資訊(類似於顏色直方圖),又包括內容的結構資訊。它的主要功能是影象與影象的匹配,主要用於靜態影象檢索,在這裡一幅影象可能由乙個單一矩形或者任意形狀、可能是非連通的區域組成。提取的方法是:通過考慮乙個 8×8 畫素的結構化元素中的所有顏色,將顏色結構資訊加入該描述符中,而不是單獨考慮每個畫素。

(2)紋理描述符

mpeg-7 推薦了三種紋理描述符,同質紋理描述符(homogenoustexture descriptors)、紋理瀏覽描述符(texture browsing descriptors)和邊緣直方圖描述符(edge histogramdescriptors)。

①同質紋理描述符

同質紋理作為乙個重要的視覺基本特徵,主要用於大量相似圖案的搜尋和瀏覽。一幅影象可看作由同質紋理以馬賽克形式拼接而成的,所以與這些區域關聯的紋理特徵可以作為索引來檢索影象。例如,使用者瀏覽乙個航空影象資料庫,可能想識別影象集合中停車場。當從遠處觀察時,汽車規則(以相等間隔)停放的停車場就是乙個極好的同質紋理圖案的例子。同樣的,從空中或是衛星拍攝的農田和植被也是同質紋理的示例。同質紋理描述符使用 62 個數字(每乙個都量化為 8bits)提供了紋理資訊的量化表示。這62 個數字的計算方法是:將影象用一組帶有方向和尺度引數的 gabor 濾波器進行濾波,一共是六個方向和五個尺度。一共得到 30 個濾波結果,每乙個濾波結果頻率域的一階矩和二階矩就是兩個描述數字。

②紋理瀏覽描述符

描述紋理的感知特性,例如規則性、方向性和粗糙性。計算方法和同質紋理描述符類似,首先使用一組帶有方向和尺度引數的 gobor 濾波器進行濾波,然後通過分析濾波結果,找到紋理主要的方向。接著分析濾波後的影象沿著這兩個(第二個主方向是可選的)主方向投影,來確定紋理的規則性和稀疏性。最多隻需要 12 位元。同質紋理描述符和瀏覽描述符提供了表示相似紋理區域(homogeneous texture regions)的多尺度方法。

③邊緣直方圖描述符

描述了 5 種邊緣(4 種方向邊緣和一種無方向邊緣)的空間分布統計。因為對於影象感知,邊緣扮演了乙個重要角色,所以它可以用於相似語義的影象檢索。因此它的主要目標在於影象與影象的匹配(通過示例或草圖),特別是邊緣分布不規則的自然影象。如果邊緣直方圖描述符與其它描述符如顏色直方圖相結合,將可以顯著提高影象檢索的效能。

(3)形狀描述符

mpeg-7 定義了三種形狀描述符:基於區域的形狀(regionshape)、基於輪廓的形狀(contour shape)和三維形狀(shape 3d)。

①基於區域的形狀

乙個物件的形狀可能只包括乙個單一區域,也有可能包括多個區域,同時在物件中還可能有一些孔(見圖 2.3)。基於區域的形狀描述符充分利用了乙個幀內組成形狀的所有畫素,它可以描述任何形狀,不但可以描述有乙個單一連通區域的簡單形狀(如圖(a)和圖(b)),而且可以描述有物件中一些孔或幾個不向連區域組成的複雜形狀(如圖(c)、圖(d)和圖(e))。基於區域的形狀描述符不僅能夠有效描述不同目標形狀,而且對於沿物件邊界的較小變形具有一定的健壯性。

②基於輪廓的形狀

基於輪廓的形狀描述符提取了目標和區域基於輪廓獲得的形狀,一般採用曲率空間表示形狀資訊,這種形狀描述符反映了人的感知特性,又稱為曲率尺度空間(curvature scale-space,css)表示,它由輪廓的曲率尺度空間表示式構成,該表示式具有如下重要特徵(如圖 2.4 所示):

較好的提取了形狀特有特徵,並能用於相似性檢索;

反映了人類視覺系統的感知性,具有良好的概括性;

對於不是很明顯的運動、形狀的部風重疊、投影變換均具有健壯性;

表示式簡潔。

③三維形狀

考慮到多**技術、虛擬世界和增強現實技術的持續發展,三維內容也成為當今多**資訊系統的普遍特徵。大多數情況下,三維資訊是用多邊形網格來表示的。mpeg-4的 snhc 組研究這個問題並開發了有效的三維網格模型編碼技術。在 mpeg-7 標準的框架中,要求對三維資訊實現智慧型的基於內容的提取,用以查詢、檢索和瀏覽三維模型庫。三維形狀特徵描述符對三維網格模型進行本質的形狀描述,它善於挖掘三維表面的區域性特徵。

MPEG 7描述子 3 顏色布局描述子CLD

dct變換利用傅利葉變換的性質。採用影象邊界褶翻將像變換為偶函式形式,然後對影象進行二維傅利葉變換,變換後僅包含余弦項,所以稱之為離散余弦 變換。dct編碼屬於正交變換編碼方式,用於去除影象資料的空間冗餘。變換 編碼就是將影象光強矩陣 時域訊號 變換到係數空間 頻域訊號 上進行處理的 方法。在空間上...

MPEG 7描述子 4 顏色結構描述子CSD

顏色結構描述符是乙個顏色特徵描述符,它既包括顏色內容資訊 類似於顏色直方圖 又包括內容的結構資訊。其主要功能是影象與影象的匹配,一般用於靜態影象檢索。它通過由幾個影象取樣組成的結構元素,表達了一幅影象中區域性顏色結構資訊,雖然它與顏色直方圖相關,但並不相同 不是突出某種顏色個別影象取樣的相對頻數,而...

mysql 檔案描述符 檔案描述符

toc 首先,linux的世界裡一切皆為檔案,無論是裝置還是乙個socket連線。檔案又可分為 普通檔案 目錄檔案 鏈結檔案和裝置檔案。檔案描述符 file descriptor 是核心為了高效管理已被開啟的檔案所建立的索引,其是乙個非負整數 通常是小整數 用於指代被開啟的檔案,所有執行i o操作的...