第一章布林檢索模型

布林檢索模型接受布林表示式查詢,即通過and、or及not等邏輯操作符捋詞項連線起來的查詢.

grepping的定義。

假如你想知道《沙士比亞全集》中包含brutus和caesar但不包含calpurnia.一種辦法就是從頭到尾閱讀這本全集,對每部劇本都要留心包含brutus和caesar但不包含calpurnia。這種線性掃瞄就是一種最簡單的計算機文件檢索方式。這個過程就叫作grepping.它來至於unix下的乙個文字掃瞄命令grep.在文字內進行grepping掃瞄速度很快,在使用現在的計算機的情況下會更快,並且在掃瞄過程中還可以使用正規表示式來支援萬用字元查詢。總之,在使用現代化的計算機進行查詢時,對乙個規模不大的文件集(不超過100萬個單詞)進行線性非常簡單,根本不需要做額外的處理。

2、有時我們需要靈活的匹配的方式.比如:在grep命令下不支援諸如romans near countrymen之類的查詢,這時的near操作符的定義可能擴為5個詞之內或同乙個句子中.

3、需要對結果進行排序.很多情況下,使用者希望在多不個滿足自己需求的文件中找到最佳答案.此時我們就不能採用上面的線性掃瞄方式了.一種非線性的方式就是事先給文件建立索引(index).我們仍然回到《沙士比亞全集》的例子,並通過介紹布林檢索的基本知識.給定詞表《沙士比亞全集》中共使用32000個不同的詞),假定我們對每篇文件(這裡指每部劇本)都事先記錄它是否包含詞表中的某個詞,結果就會得到由乙個布林值構成的詞項-文件關聯矩陣(incidence matrix).詞項(item)是索引的單位(將在後面章節談到),它通常可以用詞來表示,目前可以把詞項當成詞.當然在資訊檢索的文獻中一般都採用詞項這個更正式的說法,而詞項也不一定是詞.比如1-9,hong kong也可以作為詞項,但它們並不是詞.再回到上述矩陣中,根據從行還有列的角度來看,可以得到不同的向量;從行來看,可以得到每個詞項對應的文件向量;表示在那個文件中出現或不出現;從列來看,可以得到每個文件對應的詞項向量.表示文件中那些詞項出現或不出現.

第一章布林檢索模型

資訊檢索導論第一章布林檢索學習筆記

第一章布林邏輯

第一章線性模型

第一章 布林檢索模型

資訊檢索導論 第一章 布林檢索 學習筆記

第一章 布林邏輯

第一章 線性模型

相關推薦

第一章布林檢索模型

資訊檢索導論第一章布林檢索學習筆記

第一章布林邏輯

第一章線性模型