Lucene全文檢索處理非結構化資料

一、資料分類

結構化資料：sql語句查詢

非結構化資料：1、順序掃瞄法：從第乙個檔案掃瞄到最後乙個檔案、從每乙個檔案的開始掃瞄到結尾

2、全文檢索：將非結構化資料中的一部分資訊提取出來，重新組織，建立索引，使其變得有一定結構，然後對此有一定結構的資料進行搜尋，從而達到搜尋相對較快的目的。這部分從非結構化資料中提取出的然後重新組織的資訊，我們稱之索引。

三、全文檢索的實現方式

1、lucene：lucene是apache下的乙個開放源**的全文檢索引擎工具包。

2、solr

四、全文檢索應用場景

1）索引過程

確定原始內容即要搜尋的內容à採集文件à建立文件物件à分析文件即分詞à索引文件

1.網際網路上、資料庫、檔案系統

2.從網際網路上、資料庫、檔案系統中等獲取需要搜尋的原始資訊，這個過程就是資訊採集

3.在索引前需要將原始內容建立成文件（document），文件中包括乙個乙個的域（field），域中儲存內容，每個文件都有乙個唯一的編號，就是文件id。

4.將原始內容建立為包含域（field）的文件（document），需要再對域中的內容進行分析，分析的過程是經過對原始文件提取單詞、將字母轉為小寫、去除標點符號、去除停用詞等過程生成最終的語彙單元，語彙單元中和它所屬的網域名稱組成乙個乙個term，不同的域中拆分出來的相同的單詞是不同的term。term中包含兩部分一部分是文件的網域名稱，另一部分是單詞的內容。

5.分析就是指：將域（field）文字轉換成最基本的索引表示單元---項（term）的過程。而項（term）又是由語彙單元（token）以及它所屬的網域名稱組合而成的。最終要實現只搜尋被索引的語彙單元從而找到document（文件）

6.建立索引是對語彙單元索引，通過詞語找文件，這種索引的結構叫倒排索引結構。

傳統方法是根據檔案找到該檔案的內容，在檔案內容中匹配搜尋關鍵字，這種方法是順序掃瞄方法，資料量大、搜尋慢。倒排索引結構也叫反向索引結構，包括索引和文件兩部分，索引即詞彙表，它的規模較小，而文件集合較大。

Lucene全文檢索處理非結構化資料

lucene 全文檢索

Lucene全文檢索

Lucene全文檢索初探

Lucene全文檢索處理非結構化資料

lucene 全文檢索

Lucene全文檢索

Lucene全文檢索初探

相關推薦