《現代資訊檢索》第三章 資訊檢索建模

2021-10-05 00:00:00 字數 1305 閱讀 1726

3.2 經典資訊檢索

乙個資訊檢索模型是乙個四元組[d, q, f, r(qi, dj)]:

d:是文件集中文件的邏輯檢視的集合。

q:是使用者資訊需求的邏輯檢視組成的集合。這些表達稱為查詢。

f:是乙個對文件、查詢及其關係建模的框架,例如,集合與布林關係、向量和線性代數運算、樣本空間與概率分布。

r(qi, dj):是排序函式,對查詢表示式qi屬於q和文件表示式dj屬於d賦予乙個實數。排序函式定義了關於查詢qi的文件次序。

無結構文字經典模型:布林模型、向量模型、概率模型。

索引項或者關鍵字:指的是表示文件中的關鍵概念或者主題的乙個詞或者一組詞。

t表示文件集中索引項的數量,ki是某個索引項。v=(k1, k2, …, kt)v是文件集中所有不同索引的集合。v是文件集的詞彙表,詞彙表的大小是t。

索引共現模式,乙個文件集中索引共現模式有2^t。例如[1, 0, …, 0]或者[1, 1, …, 1]一共2^t個,每個索引項共現模式稱為乙個索引項合取分量。

詞袋法(bag of words):就是用索引項的合取分量對查詢和文件進行表示。 d1

d2k1

f1,1

f1,2

k2f2,1

f2,2

k3f3,1

f3,2

ki表示的是索引項,dj表示文件,fi,j表示ki在文件dj**現的頻率。

布林模型(boolean model)是乙個基於集合論和布林代數的簡單模型。

布林模型根據索引項合取向量進行判斷,使用非(not),與(and),或(or)。

即使當文件集的詞彙表包含不在查詢中的詞,這種方法也是可以的。

布林模型判定每篇文件要麼相關,要麼不相關,不存在部分相關。

設m=[mi,j]是乙個t行n列的項-文件矩陣,其中mi,j=wi,j,即矩陣中的每一元素ij由項-文件二元組(ki, dj)的權重給出。給定mt是矩陣m的轉置,矩陣c=m·mt是乙個項間相關性矩陣。每一元素cu,v屬於c表達了索引項ku和kv之間的關係。

tf項頻(term frequency, tf) 反比文件頻率(inverse document frequency, idf)

tf_ = f_

tf_ = 1 + logf_——f_>0

tf_ = 0——others

窮盡性和特異性

這裡沒怎麼搞懂。

後面會繼續寫

第三章,檢索資料

select prod name from products 上述語句利用select 語句從products表中檢索乙個名為prod name的列,所需要的列名在select 關鍵字之後給出,from關鍵字指出從其中檢索資料的表名 select prod name,prod id,prod nam...

第三章 排序檢索資料

本章介紹使用select語句的order by子句,根據需要排序檢索出的資料 1.子句 clause sql語句由子句構成。乙個子句通常由乙個關鍵字加上所提供的資料組成。2.order by 子句應保證它是select語句中 最後一條子句 該子句的次序不對將會出現錯誤訊息。3.通常,order by...

第三章 詞典及容錯式檢索

資訊檢索導論 美德兩國作者 王斌翻譯 本文是本人的讀書筆記 本書參考 中科大的教學 非常具有參考價值 k gram 舉個例子 castle的3 gram形式 cas,cas,ast,stl,tle,le k gram 索引結構 實質也是 倒排索引 詞典 由所有詞項的k gram形式組成 倒排記錄表 ...