1 2 垂直搜尋引擎的框架設計

2022-08-18 00:12:15 字數 695 閱讀 5051

我們設計的兒童搜尋引擎實現了三大系統:檢索系統,推薦系統和前端展示系統。

1. 檢索系統

檢索系統是搜尋引擎的核心,實現檢索的基本功能。對於本系統,我們有兩種實現方式:

2. 推薦系統

3. 前端展示系統

前端展示系統是呈現給兒童的介面,關鍵是要生動新穎,符合兒童心理,抓住兒童眼球,讓兒童愛上搜尋。

該兒童搜尋引擎的系統架構圖如下圖:

元搜尋引擎實現比較簡單,不是本文討論的重點,後邊第7節會具體講解。本文主要介紹基於lucene的自建資料庫的全文檢索。

任何乙個自建資料庫的搜尋引擎都有四大基本模組:

其中,爬蟲獲取資訊是乙個比較複雜的系統,基本結構如下:

這就是兒童搜尋引擎的系統架構,我們在自建資料庫檢索的四大基礎模組上融合了元搜尋,在基本檢索功能基礎上實現了個性推薦,敏感詞過濾,前端展示等。

垂直搜尋引擎模組設計

3 初次過濾模組 過濾廣告,導航等無用資訊 概覽頁面選定區域內包含鏈結的規則識別 位址過濾和轉換。細覽頁面選定區域內包含資料的精確識別 格式轉換 內碼轉換,位址轉換,時間轉換等等 基於視覺的網頁自動分割槽技術 vips 網頁分割槽後的區域型別和特徵的自動標註。dom樹結構分析 基於分割槽的網頁結構分...

垂直搜尋引擎模組設計

3 初次過濾模組 過濾廣告,導航等無用資訊 概覽頁面選定區域內包含鏈結的規則識別 位址過濾和轉換。細覽頁面選定區域內包含資料的精確識別 格式轉換 內碼轉換,位址轉換,時間轉換等等 基於視覺的網頁自動分割槽技術 vips 網頁分割槽後的區域型別和特徵的自動標註。dom樹結構分析 基於分割槽的網頁結構分...

全面解讀垂直搜尋引擎

1 垂直搜尋引擎不是什麼?垂直搜尋不只是類google的行業通用搜尋。以房產行業為例,假如我們按照google抓取網頁的方法,來建造乙個房產行業google的做法,是行不通的。技巧壁壘不用說明,就算我們借助nutch,lucene等搜尋技巧來做,我們也無法供給差別化的服務,而沒有差別化的產品在網際網...