第一章 布林檢索模型

2021-05-24 12:44:36 字數 929 閱讀 3764

布林檢索模型接受布林表示式查詢,即通過and、or及not等邏輯操作符捋詞項連線起來的查詢.

grepping的定義。

假如你想知道《沙士比亞全集》中包含brutus和caesar但不包含calpurnia.一種辦法就是從頭到尾閱讀這本全集,對每部劇本都要留心包含brutus和caesar但不包含calpurnia。這種線性掃瞄就是一種最簡單的計算機文件檢索方式。這個過程就叫作grepping.它來至於unix下的乙個文字掃瞄命令grep.在文字內進行grepping掃瞄速度很快,在使用現在的計算機的情況下會更快,並且在掃瞄過程中還可以使用正規表示式來支援萬用字元查詢。總之,在使用現代化的計算機進行查詢時,對乙個規模不大的文件集(不超過100萬個單詞)進行線性非常簡單,根本不需要做額外的處理。

2、有時我們需要靈活的匹配的方式.比如:在grep命令下不支援諸如romans near countrymen之類的查詢,這時的near操作符的定義可能擴為5個詞之內或同乙個句子中.

3、需要對結果進行排序.很多情況下,使用者希望在多不個滿足自己需求的文件中找到最佳答案.此時我們就不能採用上面的線性掃瞄方式了.一種非線性的方式就是事先給文件建立索引(index).我們仍然回到《沙士比亞全集》的例子,並通過介紹布林檢索的基本知識.給定詞表《沙士比亞全集》中共使用32000個不同的詞),假定我們對每篇文件(這裡指每部劇本)都事先記錄它是否包含詞表中的某個詞,結果就會得到由乙個布林值構成的詞項-文件關聯矩陣(incidence  matrix).詞項(item)是索引的單位(將在後面章節談到),它通常可以用詞來表示,目前可以把詞項當成詞.當然在資訊檢索的文獻中一般都採用詞項這個更正式的說法,而詞項也不一定是詞.比如1-9,hong kong也可以作為詞項,但它們並不是詞.再回到上述矩陣中,根據從行還有列的角度來看,可以得到不同的向量;從行來看,可以得到每個詞項對應的文件向量;表示在那個文件中出現或不出現;從列來看,可以得到每個文件對應的詞項向量.表示文件中那些詞項出現或不出現.

資訊檢索導論 第一章 布林檢索 學習筆記

名稱上看,倒排 二字顯然有些多餘,因為一般提到的索引都是從詞項 item 反向對映到文件的。但是倒排索引已成為資訊檢索中的乙個標準術語。1 收集需要建立索引的文件 2 將每篇文件換成乙個個詞條列表,此過程稱為詞條化 3 進行語言學預處理,產生歸一化的詞條來作為詞項 4 對所有文件按照其中出現的詞項來...

第一章 布林邏輯

一 背景,一些概念 0 布林代數 1 邏輯門 2 基本布林運算元 and or not 3 結論 每個布林函式不管有多複雜,都可以只使用三個布林運算元進行表達 4 門 是用來實現布林函式的物理裝置。最簡單的門由微笑的開關裝置 電晶體 transistors 構成,這些微小開關按照設計的拓補結構進行連...

第一章 線性模型

線性回歸 f x wx b 有監督學習 根據已知的資料集t來計算引數w和b 極大似然法 cost function 注意要特徵歸一化 好處 1 提公升模型收斂速度 2 提公升模型精度 邏輯回歸 分類 對數概率函式 1 1 exp z z wx b 線性判別分析 linear discriminant...