常用的站內搜尋技術比較

2022-02-24 23:13:52 字數 1303 閱讀 5681

基於資料庫的搜尋

基於spider抓取的站內搜尋

全文檢索者站內搜尋軟體系統

原理

資料庫搜尋

通過spider抓取網頁,經html解析,分詞,索引實現網頁式站內搜尋。

對資料庫資料進行html解析、縮略,分詞,索引,實現站內搜尋。

檢索效率

非常低下 消耗大量硬體資源

高效高效

檢索範圍

無法完成全文檢索(可以用sql的單字索引功能最簡單的完成索引功能實現最低階的全文檢索),只能進行標題檢索。 資料庫效率太低,無法開展各種附加功能。

網頁檢索 優點:不需要做各種工作,直接即可使用 缺點: 1.有大量的不必要的資訊影響搜尋結果的排序和顯示的效果。嚴重影響精確度。 2.部分頁面無法抓取到。 3.使用者對搜尋範圍和內容以及體現的結果無法精確控制

標題+內容 基於內容分析的排序方法。基於內容分析排序是最佳的排序方法。 標題和內容可控制,搜尋結果準確到位。 內容可控,使用者可對搜尋的內容範圍和體現的結果進行精確的控制

檢索語法

無支援標準的國際搜尋語法。

支援標準的國際搜尋語法。

動態摘要

無摘要內容不清晰各種垃圾資訊過多

提供動態摘要,摘要清晰精確,便於使用者快速尋找到需要的資訊。

無有有內容的範圍

可控制不可有效控制,動態網頁抓取效果不佳,沒有鏈結的網頁無法抓取,頁面出現雜亂資訊影響搜尋結果。對於時間控制也無法做到精準,對於欄目的歸屬無法做到準確。

可有效控制,您可以把多個字段拆分合併,可以確定那些需要,哪些不需要。所有動態網頁和沒有鏈結的網頁均可有效收入。 欄目控制精準。

縮略

無無有同義詞

無無有相關性排序

無有有其他

低效率低質量的平台無法開展增值服務

二次研發成本高

具有持續不斷的公升級能力和良好的售後服務。

成本

低**高以產品形式運作,多家客戶分攤成本,成本相對低廉。運維成本低。

維護成本

不大維護量不大。

程式維護無須投入,但是需要進行一定量的內容維護。 經過簡單培訓即可勝任。

mysql站內搜尋 Sphinx站內搜尋

一 sphinx流程 mysql資料 sphinx 索引資料 二 sphinx概述 三 sphinx使用地方 1 中的搜尋 站內搜尋 2 系統後台中的搜尋 四 為什麼要使用sphinx 當資料超過100w時,我們需要使用第三方工具,sphinx。1 做搜尋時當資料量大單純的mysql搜尋比較慢 如果...

ASP站內搜尋

處理程式 case 品牌 str select from car where car pinpai like ss order by car id desc set rs db.execute str 編號汽車名稱 型號樣式 廠家汽車品牌 提交日期 do while not rs.eof rs ca...

Hexo 新增站內搜尋

針對無資料庫的靜態部落格搜尋方案一般有兩種 第三方搜尋服務 序列化站點內容作為資料來源,然後自己寫查詢方法。另外,hexo 中有使用者基礎的 swiftype 和 algolia使用也比較多。網上關於algolia 在next主題使用教程較多,這裡不多說。本文只介紹swiftype.swiftype...