lucene in action 閱讀筆記 一

2021-08-30 00:26:13 字數 948 閱讀 9807

lucene 是乙個高效能的資訊檢索鏈結庫。能夠新增索引和搜尋的功能到你的應用程式中。

lucene 核心類index

1 indexwriter 建立乙個索引, 並在索引中新增文件,但不是真的去讀或者去搜尋這個物件

2 directory 是乙個抽象類, 描述索引物件的位置。

fsdirectory 在檔案系統中儲存索引,也就是儲存在硬碟中

ramdirectory是將索引資訊儲存在記憶體中, 並在程式結束執行之後進行銷毀,在記憶體中速度快, 適用於索引資訊較少, 同時需要快速儲存的索引

analyzer 主要實現的是從文件中抽取令牌, 同時去掉其他內容。同時, 如果要索引內容存在著非純文字, 那麼將自動進行轉換。它是乙個抽象類,lucene實現了包括例如去掉(a,the)等停用詞, 或者將索引全部轉換小寫使之大小寫無關等具體類。因此在整合應用程式的時候選擇具體的analyzer 是非常關鍵的。

document 是你需要索引檔案的域的集合,可以看作是一系列的資訊。

field 實際上就是描述與文件相關的原資料資訊。所有的資訊分別儲存在文件對應的不同域中。field有以下幾種不同型別

keyword 用於索引和儲存索引。主要用於在實體中需要儲存的資訊

unindexed 無須索引,但是他的值儲存在索引中,用於顯示搜尋結果的時候顯示, 但是不會作為關鍵字進行搜尋

unstored分析,索引,但是不儲存。大量文件不需要從原來的形式中進行檢索

text 分析 索引

search

indexsearcher 是搜尋indexwriter所建立的索引,也可以想象成將索引開啟成乙個唯讀模式

term 是搜尋的基本單元 包含name 和value

query 是lucene的基礎。是很多查詢的抽象類

termquery是最基本的型別, 用於匹配文件中的特定域中包含特定值的資訊

hits 是指向結果集合, 匹配當前查詢

lucene in action筆記之二搜尋基礎

一 簡單的搜尋程式 主要搜尋的類 1 indexsearcher搜尋操作入口,所有的搜尋操作都是通過indexsearcher例項使用乙個過載的search方法來實現。2 query及其子類具體的query子類為每一種特定型別的查詢進行了邏輯上的封裝。query例項被傳遞到indexsearch的s...

閱文與掌閱的真假繁華

高爾基說過 書籍是人類進步的階梯 雨果說過 書籍便是這種改造靈魂的工具。人類所需要的,是富有啟發性的養料。而閱讀,則正是這種養料 列夫 托爾斯泰說過 理想的書籍是智慧型的鑰匙 這般說說書籍或者說閱讀重要性的名言警句不在少數。那麼,問題來了 你們在看書的時候是更喜歡看紙質書還是電子書?關於這個問題,相...

object detection目標檢測閱讀記錄

1,一開始,利用神經網路以滑動視窗的形式對進行目標檢測,如overfeat。其原理即是用不同大小的視窗在上滑動,每個視窗對應乙個待檢測類別元素的正確率。2,接下來的方法是rcnn方法,此方法先利用傳統的影象分割技術對影象進行輪廓分割,再對每個分割出的部分用神經網路進行計算其正確率,此方法大部分 對其...