搜尋引擎概述

2021-06-26 11:01:59 字數 787 閱讀 3820

對資訊檢索的評價——準確率和召回率。

準確率,precision

。檢索出來的文件中,相關文件所佔比例。

召回率,recall

。全部相關文件中,被檢索出來的文件的比例。

垂直搜尋,vertical search

。針對某一主題(行業、應用)的特殊搜尋。

評價:使用者與操作引擎互動的日誌是很有價值的資訊源。

.doc 、excel、.pdf等二進位制檔案也有專門的函式可以讀。

分詞:找出文件中的關鍵字,去除一些停用詞。

停用詞:無單獨意義又經常出現的詞,英文如: as 、for、 the、 this;中文如 的、是、這個、啊。

倒排索引,inverted index

。正排:文件

->

單詞的集合;倒排:單詞

->

文件的集合。posting(記錄)中可包含文件編號、出現位置、出現頻率等。

對不同的文件掃瞄得到不同的倒排索引,然後進行合併。

為了更好的合併,通常先字典排序,再進行二路歸併。此時會有大量字首相同的詞排在一起。可採用公共字首思想進行壓縮。

打分;對文件的質量、重要性進行打分。

分詞。

檢索。根據倒排索引取文件的交集。

打分:按照一定的公式,索引建立階段的文件分數與關鍵字分數共同影響最終得分。

優先佇列:搜尋到的相關文件可能太多,使用者一般只需要前若干個。故檢索過程中根據打分分值維護乙個規模為n的優先佇列即可。

使用者輸入與得到輸出。

每條結果通常包括文件標題、簡要描述、超連結 三部分。

搜尋引擎概述之倒排索引

考慮一下未來個人使用的裝置,它將是乙個機械化的個人圖書館,它需要乙個名字引起人們的注意 memex 就可以.memex是這樣乙個機械化裝置,人們可以在其中儲存書籍 記錄和信件,同時可以以很高的速度和極強的靈活性完成檢索.作為輔助裝置,它是人腦的無限擴大.bush,1945 說到提高檢索效率,就必然提...

搜尋引擎索引系統概述(一)

程式設計驛站 www.cppcns.com 10月21日訊息 今日,站長平台lee撰文介紹了索引系統的相關問題概述。羅列出了如何能夠在最快的速度內返回使用者查詢結果,從而提高使用者體驗度的相關資訊。搜尋引擎索引系統概述 一 原文如下 眾所周知,搜尋引擎的主要工作過程包括 抓取 儲存 頁面分析 索引 ...

搜尋引擎優化概述 SEO

seo 概述 搜尋引擎 search engine 它是乙個根據站點內容,將各種站點分門別類的 每個引擎的工作原理都不同,有的是按meta值來分,有的是根據頁面內容,有的按頁面標題,還有的將這些方法綜合運用。搜尋引擎通過執行一種稱為 蜘蛛 的程式查詢檢索各個站點的內容,像google yahoo m...