搜尋引擎架構

2022-06-23 05:39:10 字數 488 閱讀 3717

搜尋引擎獲取並儲存海量的網頁相關資訊,不需要實時計算,可看做搜尋引擎的後台計算系統。搜尋引擎的最重要目的是為使用者提供準確全面的搜尋結果。

當搜尋引擎接收到使用者的查詢詞後,首先需要對查詢詞進行分析,希望能夠結合查詢詞和使用者資訊來正確推導使用者的真正搜尋結果,如果能夠在快取系統找到滿足使用者需求的資訊,則可以直接將搜尋結果返回給使用者,如果快取資訊無法滿足使用者需求,搜尋引擎需要呼叫「網頁排序」模組功能,根據使用者的查詢實時計算哪些網頁是滿足使用者資訊需求的,並排序輸出作為搜尋結果。而網頁排序最重要的兩個參考因素中,乙個是內容相似性因素,即哪些網頁是和使用者查詢密切相關的;另乙個是網頁的重要性因素,即哪些網頁是質量較好或者相對重要的,這點往往可以從鏈結分析的結果獲取。結合以上兩個考慮因素,就可以對網頁進行排序,作為使用者查詢的搜尋結果。

參考:《這就是搜尋引擎:核心技術詳解》.張俊林.pdf 第一章

搜尋引擎架構

最近對研究搜尋引擎有濃厚的興趣,在這裡總結如下 搜尋引擎的資訊 於網際網路網頁,通過網路爬蟲將整個網際網路的資訊獲取到本地,因為網頁中有相當大比例的內容是完全相同或近似重複的,網頁去重模組會對此進行檢測,並去除重複內容。之後搜尋引擎會對網頁進行解析,抽取出網頁主體內容,以及頁面包含的指向其他頁面的鏈...

搜尋引擎的技術架構

作為網際網路應用中最具技術含量的應用之一,優秀的搜尋引擎需要複雜的架構和高效的演算法,以此來支撐對海量資料的獲取 儲存,以及對使用者查詢的快速而準確的響應。下圖所示是乙個通用搜尋引擎的架構示意圖。搜尋引擎由許多模組組成,各自負責不同的功能作用,相互配合形成完整的架構。搜尋引擎的資訊來自於網際網路網頁...

Nutch搜尋引擎系統架構

下面分析一下nutch搜尋引擎系統的特點。一 系統架構 總體上nutch可以分為2個部分 抓取部分和搜尋部分。抓取程式抓取頁面並把抓取回來的資料做成反向索引,搜尋程式則對反向索引搜尋回答使用者的請求。抓 取程式和搜尋程式的介面是索引,兩者都使用索引中的字段。抓取程式和搜尋程式可以分別位於不同的機器上...