垂直搜尋引擎模組設計

2021-05-26 14:23:54 字數 1247 閱讀 9950

3:初次過濾模組(過濾廣告,導航等無用資訊)

概覽頁面選定區域內包含鏈結的規則識別、位址過濾和轉換。

細覽頁面選定區域內包含資料的精確識別、格式轉換(內碼轉換,位址轉換,時間轉換等等)

基於視覺的網頁自動分割槽技術(vips),網頁分割槽後的區域型別和特徵的自動標註。

dom樹結構分析;基於分割槽的網頁結構分析思想,視覺化的區域選擇配置

5:資料探勘模組:

文字分類、文字聚類、相似性檢索、自動摘要、自動分詞、資訊抽取、敏感資訊過濾、情感分析、拼音檢索、相關短語檢索

5.1文字分類:

基於統計的文字分類(訓練語料庫,支援修改補充語料庫和規則庫);支援多級和復分;支援基於語義分析的向量空間模型,使用者可以建立知識詞典,模組自動呼叫知識庫資源,進一步提高分類的精確度。

基於規則體系的文字分類(編寫分類規則):

規則支援「與或非」等邏輯運算和詞頻數條件設定。

比如表示式:作者=(劉翔+顧寶剛)- 正文=(比賽);標題=(復出) + 正文=(美國+**)

k近鄰法和支援向量機等分類演算法:

某svm分類器:

5.2文字聚類:

將相近、相似或者相同特徵的文字聚合在一起

5.5自動分詞

第一階段:正向減字最大匹配+逆向減字最大匹配,如果不相同,再用回溯法重新處理

第二階段:

規則與統計相結合,內嵌分詞歧義規則庫

提供詞性標註功能,準確識別人名、地名、組織機構名等資訊

分詞詞典:系統支援設立主題詞表、同義詞/反義詞典、禁用詞典以及詞典按需 維護

分詞規則庫:統計建立了大量歧義排除規則,有效提高了分詞準確性、提高了 查準率。

支援主題詞典自動擴充套件檢索、同義詞/反義詞自動擴充套件檢索、全半形 自動擴充套件檢索、簡繁體自動擴充套件檢索(基於權威知識庫體系,輔助元資料資訊的糾錯和補全)

5.6資訊抽取

抽取目標:結構化(時間),半結構化(html),非結構化(人名、地名、機構名、時間以及貨幣等等)

抽取方法:

1:模板技術(人工標註各類模板庫,然後自動萃取。有可能的話用神經網路自動訓練)

2:啟發式的獲取(新聞的正文一般在標題下面最近的一塊大區域)

3:利用視覺相似性自動分析網頁語義結構(目前比較流行的方式)

5.7情感分析

6儲存模組:

結構化資料:各種關聯式資料庫

非機構化資料:檔案系統lucene做索引,bigtable(hbase、hypertable)

分布式:hadoop集群,mogilefs自動備份等等

垂直搜尋引擎模組設計

3 初次過濾模組 過濾廣告,導航等無用資訊 概覽頁面選定區域內包含鏈結的規則識別 位址過濾和轉換。細覽頁面選定區域內包含資料的精確識別 格式轉換 內碼轉換,位址轉換,時間轉換等等 基於視覺的網頁自動分割槽技術 vips 網頁分割槽後的區域型別和特徵的自動標註。dom樹結構分析 基於分割槽的網頁結構分...

全面解讀垂直搜尋引擎

1 垂直搜尋引擎不是什麼?垂直搜尋不只是類google的行業通用搜尋。以房產行業為例,假如我們按照google抓取網頁的方法,來建造乙個房產行業google的做法,是行不通的。技巧壁壘不用說明,就算我們借助nutch,lucene等搜尋技巧來做,我們也無法供給差別化的服務,而沒有差別化的產品在網際網...

1 2 垂直搜尋引擎的框架設計

我們設計的兒童搜尋引擎實現了三大系統 檢索系統,推薦系統和前端展示系統。1.檢索系統 檢索系統是搜尋引擎的核心,實現檢索的基本功能。對於本系統,我們有兩種實現方式 2.推薦系統 3.前端展示系統 前端展示系統是呈現給兒童的介面,關鍵是要生動新穎,符合兒童心理,抓住兒童眼球,讓兒童愛上搜尋。該兒童搜尋...