bag of words 模型簡介

2021-08-28 19:24:35 字數 1698 閱讀 1963

bow模型最初應用於文字處理領域,用來對文件進行分類和識別。bow 模型因為其簡單有效的優點而得到了廣泛的應用。其基本原理可以用以下例子來給予描述。給定兩句簡單的文件:

文件 1:「我喜歡跳舞,小明也喜歡。」

文件 2:「我也喜歡唱歌。」

詞典=

文件 1:[1, 2, 1, 1, 1, 0]

文件 2:[1, 1, 0, 0, 1, 1]

bag-of-words模型在計算機視覺的應用

圖1在得到每類影象的視覺單詞袋表示之後,便可以應用這些視覺單詞來構造視覺詞典,然後對待分類影象進行同樣方法的特徵提取和描述,最後將這些特徵對應到視覺詞典庫中進行匹配,去尋找每個特徵所對應的最相似的視覺單詞,得到直方圖統計表示,然後應用分類器進行分類。這樣就將應用於文件處理的bow模型思想成功地移植到了影象處理領域。史丹福大學的 li feifei 等人在此方面做出了突出的貢獻。

在應用bow模型來表述影象時,影象被看作是文件,而影象中的關鍵特徵被看作為「單詞」,其應用於影象分類時主要包括三個步驟:

特徵提取和描述;

視覺詞典構造;

單詞表的中詞彙表示影象

step1:影象特徵提取和描述

特徵提取和描述的主要任務是從影象中抽取具有代表性的區域性特徵。要求這些特徵具有較強的可區分性,能最大限度地與其他物體進行區分。此外,還要求被提取的特徵具有較好的穩定性,此類特徵經常存在於影象的高對比度區域,例如物體邊緣與角點。

bow模型中的一些典型影象特徵的提取和描述方法

(1) 規則網格(regular grid)方法是特徵提取的最簡單且有效的方法之一,該方法將影象應用均勻網格進行劃分,從而得到一些影象的區域性區域特徵,此方法在應用於自然場景分類時收到了良好的效果。圖2給出了利用規則網格方法得到的特徵提取結果。

圖2採用規則網格法的優點在於:(1)可以人為地設定網格的劃分級別,得到想要的特徵數目;(2)在劃分過程中可以對一些特徵進行精確的定位;(3)可以充分利用影象的資料資訊,最大限度的做到資訊的完整性。然而該方法也存在一定的缺點,例如引入了大量的冗餘(背景)資訊,而降低了物件本身所提供的有用資訊的價值。

(2) 興趣點檢測方法;興趣點檢測子和興趣區域檢測子的實現方法都是通過數學計算,去抽取滿足一定數學條件的特徵點或者區域,常用的檢測子有edge-laplace、harris-laplace、hessian-laplace、harris-affine、hessian-affine、mser、salient regions實際上,針對具體任務不同以及應用的資料庫不同,最佳檢測子的選擇也很不相同。

step2:構建視覺詞典

利用聚類演算法(如:k-means演算法)對步驟1提取的特徵描述子構造單詞表(詞典),特徵描述子分為k個簇,以使簇內具有較高的相似度,而簇間相似度較低,將詞義相近的詞彙合併,作為單詞表中的基礎詞彙,聚類類別的數量k即為整個視覺詞典的大小基礎詞彙的個數。

step3:單詞表的中詞彙表示影象

從每幅影象中提取很多個特徵點,這些特徵點都可以用單詞表中的單詞近似代替,通過統計單詞表中每個單詞在影象中出現的次數,可以將影象表示成為乙個k維數值向量。

CTC模型簡介

ctc connectionist temporal classification 可以理解為基於神經網路的時序類分類。比如語音識別 的一幀資料,很難給出乙個label,但是幾十幀資料就容易判斷出對應的發音label。語音識別聲學模型的訓練屬於監督學習,需要知道每一幀對應的label才能進行有效的訓...

Biba模型簡介

上週上資訊保安的課,老師留了個biba模型的作業。自己看書了解了一下,記錄如下。biba模型是畢巴 k.j.biba 在1977年提出的完整性訪問控制模型,它是乙個強制訪問模型。在介紹biba模型之前,先說一下訪問控制分類。訪問控制分類 訪問控制的主要作用是讓得到授權的主體訪問客體,同事阻止沒有授權...

XML簡介以及MOM模型簡介

xml 可擴充套件標記語言 在 20 世紀 90 年代後期登上舞台後,就一直是眾多活動和狂熱思索的焦點。xml 只是基於普通文字,但卻提供了幾乎可以在任何兩個應用程式間共享資料的方式。雖然 xml 在概念上很簡單,但對 xml 的處理卻通常很煩瑣 需要編寫大量重複性的 和複雜 很多容易被忽視的細節導...