Lucene全文檢索處理非結構化資料

2021-08-27 03:43:11 字數 1033 閱讀 5347

一、資料分類

結構化資料:sql語句查詢

非結構化資料:1、順序掃瞄法:從第乙個檔案掃瞄到最後乙個檔案、從每乙個檔案的開始掃瞄到結尾

2、全文檢索:將非結構化資料中的一部分資訊提取出來,重新組織,建立索引,使其變得有一定結構,然後對此有一定結構的資料進行搜尋,從而達到搜尋相對較快的目的。這部分從非結構化資料中提取出的然後重新組織的資訊,我們稱之索引。

三、全文檢索的實現方式

1、lucene:lucene是apache下的乙個開放源**的全文檢索引擎工具包。

2、solr

四、全文檢索應用場景

1)索引過程

確定原始內容即要搜尋的內容à採集文件à建立文件物件à分析文件即分詞à索引文件

1.網際網路上、資料庫、檔案系統

2.從網際網路上、資料庫、檔案系統中等獲取需要搜尋的原始資訊,這個過程就是資訊採集

3.在索引前需要將原始內容建立成文件(document),文件中包括乙個乙個的域(field),域中儲存內容,每個文件都有乙個唯一的編號,就是文件id。

4.將原始內容建立為包含域(field)的文件(document),需要再對域中的內容進行分析,分析的過程是經過對原始文件提取單詞、將字母轉為小寫、去除標點符號、去除停用詞等過程生成最終的語彙單元,語彙單元中和它所屬的網域名稱組成乙個乙個term,不同的域中拆分出來的相同的單詞是不同的term。term中包含兩部分一部分是文件的網域名稱,另一部分是單詞的內容。

5.分析就是指:將域(field)文字轉換成最基本的索引表示單元---項(term)的過程。而項(term)又是由語彙單元(token)以及它所屬的網域名稱組合而成的。最終要實現只搜尋被索引的語彙單元從而找到document(文件)

6.建立索引是對語彙單元索引,通過詞語找文件,這種索引的結構叫倒排索引結構。

傳統方法是根據檔案找到該檔案的內容,在檔案內容中匹配搜尋關鍵字,這種方法是順序掃瞄方法,資料量大、搜尋慢。倒排索引結構也叫反向索引結構,包括索引和文件兩部分,索引即詞彙表,它的規模較小,而文件集合較大。

lucene 全文檢索

在講全文檢索之前,先說下資訊檢索。資訊檢索通俗的講,就是從資訊集合中找出與使用者相關的資訊,除了文字之外,還有音訊 影象等。全文檢索 把使用者的查詢請求和全文中的每個詞進行比較,不考慮查詢請求與文字語義上的匹配。b 全文檢索是指計算機索引程式通過掃瞄文章中的每乙個詞,對每乙個詞建立乙個索引,指明該詞...

Lucene全文檢索

流程圖 一.建立文件 文件域 注 每乙個doucment可以有多個field,不同的document可以有不同的field,同乙個document可以有相同的field 網域名稱和域值都相同 每乙個文件都有唯一的編號 二.分析文件 將文件中的大寫轉化成小寫,清除 is a 標點 停用詞等過程生成語彙...

Lucene全文檢索初探

1 全文檢索是什麼 先建立索引,再對索引進行搜尋的過程。2 為什麼需要全文檢索 在網頁搜尋時,如果沒有全文檢索,每一次檢索資料都會對資料庫進行查詢,當資料庫的資料量非常大時,搜尋起來非常耗時以及耗費資源,所以我們可以先將資料庫的資料採集出來,提前對這些資料進行整理,建立索引,將這些索引檔案儲存到伺服...