經典資訊檢索模型(一)
一.布林模型:
布林模型是基於集合理論和布林代數的一種簡單的檢索模型。由於集合的概念非常直觀,所以布林模型為資訊檢索系統的普通使用者提供了一種易於掌握的框架,此外,查詢被表示成有確切語義的布林表示式。由於布林模型內部簡單,形式簡潔,在過去的幾年的幾年引起了人們廣泛關注,並且在早期的許多商業系統中得以採用。
j∈,查詢詞q由連線詞not,and,or連線起來的多個標引詞所組成。這樣,查詢q本質上是乙個常規的布林表示式,它可以表示為多個何去向量的析取,即析取正規化dnf。比方說,查詢[q = k
a∧(kb∨¬
kc)],可以寫成析取正規化的形式[qdnf =(1,1,1)
∨(1,1,0) ∨(1,0,0)
],其中的每乙個分量都是三元組(ka,kb,kc)的二值加權向量,這些二值加權向量稱之為qdnf
的合取分量。
這裡需要解釋一下,ka,kb,kc的權值只可能為,其中1表示存在,而0表示不存在。上面提到的查詢語句[q = k
a∧(kb∨¬
kc)]的含義為:查詢所有含有ka,並且含有kb或含有ka並且不含有kc的文獻。假設文獻,對ka,kb,kc的含有情況有向量(ka,kb,kc)表示,那麼(1,1,1)表示同時含有ka,kb,kc 滿足上述查詢,同樣(1,1,0)含有ka,kb,也滿足上述查詢,(1,0,0)含有ka,並且不含有kc,也滿足上述查詢,所以符合[qdnf =(1,1,1)
∨(1,1,0) ∨(1,0,0)
]正規化的文獻都將返回。
來看一下定義:對於布林模型而言,標引詞權值變數都是二值的,即wi,
j∈,查詢q是乙個常規的布林表示式,用qdnf
表示q的析取正規化,qcc
表示qdnf
的任意合取分量。文獻dj和查詢q的相似度可以定義為:
解釋一下相似度為1的情況:相似對為1需要同時滿足兩個條件,存在乙個屬於qdnf
的qcc
並且,對如任何乙個標引詞ki ,都有dj關於這個標引詞的權重等於查詢的合取分量qcc
對於這個標引詞的權重,函式gi 返貨對應標引詞i的權重。拿上面的例子來說,qcc
為查詢布林表示式的乙個合取分量,則可能為(1,1,0)那麼如果存在這樣一篇文獻d,他含有ka,kb但是不含有kc,則當i = ka時 gi(d)= gi(qcc) = 1, i = kb時,gi(d)= gi(qcc) = 1, i = kc時gi(d)= gi(qcc) = 0,即,對於任意乙個標引詞ka,kb,kc都有gi(dj)=gi(qcc ) ,則這篇文獻滿足檢索條件。
資訊檢索模型與評估
資訊檢索的前提是對資訊內容的索引提取,所謂的索引就是指用於標識資訊內容的項。建立資訊的索引的方法,通常可分為兩類 一種是手動定義索引,一種是自動獲取索引。而我們所要面臨的資料來源,既可能是模組化或結構化的語言,譬如html語言,又可能是非結構化的語言,譬如自然語言 既可能是與上下文相關的詞彙,又可能...
資訊檢索模型與評估
資訊檢索的前提是對資訊內容的索引提取,所謂的索引就是指用於標識資訊內容的項。建立資訊的索引的方法,通常可分為兩類 一種是手動定義索引,一種是自動獲取索引。而我們所要面臨的資料來源,既可能是模組化或結構化的語言,譬如html語言,又可能是非結構化的語言,譬如自然語言 既可能是與上下文相關的詞彙,又可能...
資訊檢索與排序模型之布林模型
在 學習布林模型之前首先讓我們了解一下模型的基本概念為後面的學習奠定基礎。模型是採用數學工具對現實世界某種事物或某種運動的抽象描述,面對相同的輸入,模型輸出應能夠無限地逼近現實世界的輸出 如 天氣預報模型 資訊檢索模型就是表示文件與使用者查詢以及查詢與文件的關係框架。下圖是常用的資訊檢索模型以及所支...