全文檢索資料探勘

2021-07-04 21:31:21 字數 1189 閱讀 5928

全文檢索(full-text search):

先建立索引,再對索引進行搜尋的過程,搜尋結果為匹配文字

一般過程:索引建立(indexing)和搜尋索引(search)

資料探勘(dm)

傳統的資料庫分析資料量太大後效率低,產生資料探勘和資料倉儲等新技術。資料探勘功能:

1.自動**趨勢和行為 2.

關聯分析

3.聚類

4.概念描述

5.偏差檢測

資料探勘之分詞器

1.基於詞典分詞(目前主流的分詞方法,解決70~80%的問題,二元以上分詞後查詢字典直到找不到為止):正向最大匹配、逆向最大匹配、雙向最大匹配、最佳最大匹配

2.基於語義分詞(還不成熟)

3.基於統計分詞(優先高頻詞彙)

資料倉儲(dw)

資料倉儲是乙個環境,組成包括: 

資料抽資料淨化 資料載入  

資訊發布系統 

操作型資料和外界資料 

資料集市  

報表,查詢, eis工具  

olap 工具  

資料探勘工具  

操縱平台  

元資料  

管理平台

建立url和分詞元資料的鍵值對,提供全文檢索url

開源的搜尋引擎庫,提供全文索引方法

lucene建立索引五大類

document、field、analyzer(分詞器)、indexwriter、directory      

lucene搜尋

query、term、termquery、indexsearcher、hits

api)

詞庫素材

詞庫在網上很多如,qq拼音、搜狗拼音等詞庫都已加密,可以找一些未加密的詞庫,匯入lucene詞庫管理工具

solr:基於lucene建立的伺服器,提供全文搜尋服務

nutch:web搜尋引擎

haddoop:分布式服務框架

參考:

分詞器、ansj分詞器、mmseg4j分詞器、ik-analyzer分詞器分詞效果評估)

分詞器原理與原始碼分析

)全文檢索架構)

什麼叫全文檢索 全文檢索概念

全文檢索是指計算機索引程式通過掃瞄文章中的每乙個詞,對每乙個詞建立乙個索引,指明該詞在文章中出現的次數和位置,當使用者查詢時,檢索程式就根據事先建立的索引進行查詢,並將查詢的結果反饋給使用者的檢索方式。這個過程類似於通過字典中的檢索字表查字的過程。全文檢索的方法主要分為按字檢索和按詞檢索兩種。按字檢...

什麼叫全文檢索 全文檢索概念

全文檢索是指計算機索引程式通過掃瞄文章中的每乙個詞,對每乙個詞建立乙個索引,指明該詞在文章中出現的次數和位置,當使用者查詢時,檢索程式就根據事先建立的索引進行查詢,並將查詢的結果反饋給使用者的檢索方式。這個過程類似於通過字典中的檢索字表查字的過程。全文檢索的方法主要分為按字檢索和按詞檢索兩種。按字檢...

Nutla 全文檢索千億資料檢索框架

全文檢索千億資料檢索框架 nutla 核心結構 lucene hadoop 分布式搜尋執行框架 概述不管程式效能有多高,機器處理能力有多強,都會有其極限。能夠快速方便的橫向與縱向擴充套件是nut設計最重要的原則,以此原則形成以分布式平行計算為核心的架構設計。以分布式平行計算為核心的架構設計是nut區...