Lucene全文檢索

2022-07-28 17:45:21 字數 493 閱讀 9962

流程圖

一.建立文件

文件域

注: 每乙個doucment可以有多個field,不同的document可以有不同的field,同乙個document可以有相同的field(網域名稱和域值都相同)

每乙個文件都有唯一的編號

二.分析文件

將文件中的大寫轉化成小寫,清除 is a 標點 停用詞等過程生成語彙單元,每乙個單詞叫乙個term,不同的域中拆分出來的的單詞是不同的term file_name 和file_content中的相同單詞屬於不同的域,

term  key:域 value: spring只有key和value相同的才是乙個東西

三.建立索引

lucene 全文檢索

在講全文檢索之前,先說下資訊檢索。資訊檢索通俗的講,就是從資訊集合中找出與使用者相關的資訊,除了文字之外,還有音訊 影象等。全文檢索 把使用者的查詢請求和全文中的每個詞進行比較,不考慮查詢請求與文字語義上的匹配。b 全文檢索是指計算機索引程式通過掃瞄文章中的每乙個詞,對每乙個詞建立乙個索引,指明該詞...

Lucene全文檢索初探

1 全文檢索是什麼 先建立索引,再對索引進行搜尋的過程。2 為什麼需要全文檢索 在網頁搜尋時,如果沒有全文檢索,每一次檢索資料都會對資料庫進行查詢,當資料庫的資料量非常大時,搜尋起來非常耗時以及耗費資源,所以我們可以先將資料庫的資料採集出來,提前對這些資料進行整理,建立索引,將這些索引檔案儲存到伺服...

Lucene 全文檢索案例

順序掃瞄法 全盤掃瞄,效率低 全文檢索法 先建立索引再進行搜尋 1 建立乙個directory物件,指定索引庫儲存的位置 2 基於directory物件建立乙個indexwriter物件 3 讀取磁碟上的檔案,對應每個檔案建立乙個文件物件 4 向文件物件中新增域 5 把文件物件寫入索引庫 6 關閉i...