經典資訊檢索模型（一）

一．布林模型：

布林模型是基於集合理論和布林代數的一種簡單的檢索模型。由於集合的概念非常直觀，所以布林模型為資訊檢索系統的普通使用者提供了一種易於掌握的框架，此外，查詢被表示成有確切語義的布林表示式。由於布林模型內部簡單，形式簡潔，在過去的幾年的幾年引起了人們廣泛關注，並且在早期的許多商業系統中得以採用。

j∈，查詢詞q由連線詞not，and，or連線起來的多個標引詞所組成。這樣，查詢q本質上是乙個常規的布林表示式，它可以表示為多個何去向量的析取，即析取正規化dnf。比方說，查詢[q = k

a∧(kb∨¬

kc)]，可以寫成析取正規化的形式[qdnf =(1,1,1)

∨(1,1,0) ∨(1,0,0)

]，其中的每乙個分量都是三元組(ka,kb,kc)的二值加權向量，這些二值加權向量稱之為qdnf

的合取分量。

這裡需要解釋一下，ka,kb,kc的權值只可能為，其中1表示存在，而0表示不存在。上面提到的查詢語句[q = k

a∧(kb∨¬

kc)]的含義為：查詢所有含有ka，並且含有kb或含有ka並且不含有kc的文獻。假設文獻,對ka，kb，kc的含有情況有向量（ka，kb，kc）表示，那麼（1,1,1）表示同時含有ka，kb,kc 滿足上述查詢，同樣(1,1,0)含有ka，kb，也滿足上述查詢，（1,0,0）含有ka，並且不含有kc，也滿足上述查詢，所以符合[qdnf =(1,1,1)

∨(1,1,0) ∨(1,0,0)

]正規化的文獻都將返回。

來看一下定義：對於布林模型而言，標引詞權值變數都是二值的，即wi,

j∈,查詢q是乙個常規的布林表示式，用qdnf

表示q的析取正規化，qcc

表示qdnf

的任意合取分量。文獻dj和查詢q的相似度可以定義為：

解釋一下相似度為1的情況：相似對為1需要同時滿足兩個條件，存在乙個屬於qdnf

的qcc

並且，對如任何乙個標引詞ki ，都有dj關於這個標引詞的權重等於查詢的合取分量qcc

對於這個標引詞的權重，函式gi 返貨對應標引詞i的權重。拿上面的例子來說，qcc

為查詢布林表示式的乙個合取分量，則可能為（1,1,0）那麼如果存在這樣一篇文獻d，他含有ka，kb但是不含有kc，則當i = ka時 gi(d)= gi(qcc) = 1, i = kb時，gi(d)= gi(qcc) = 1， i = kc時gi(d)= gi(qcc) = 0，即，對於任意乙個標引詞ka,kb,kc都有gi(dj)=gi(qcc ) ，則這篇文獻滿足檢索條件。

經典資訊檢索模型（一）

資訊檢索模型與評估

資訊檢索模型與評估

資訊檢索與排序模型之布林模型

經典資訊檢索模型（一）

資訊檢索模型與評估

資訊檢索模型與評估

資訊檢索與排序模型之布林模型

相關推薦