搜尋引擎(一) 初識

2021-07-15 21:47:47 字數 665 閱讀 2417

搜尋引擎是網際網路應用中技術含量最高的應用之一。使用者通過輸入查詢詞,搜尋引擎返回搜尋結果,應用形式看似簡單,但如何從百億量的網際網路資料資料中準確且高效的獲得使用者想要的搜尋資訊,也是不小的挑戰。因此,「更全、更快、更準」便是搜尋引擎技術的最終目標。對於搜尋引擎來說,「更快、更全」是其餘其他同類產品競爭的考量之一,然而「更準」卻是市場的核心競爭力。

解決「更準」主要集中在3個方面。使用者的真正需求。使用者查詢的平均長度是2.7個單詞,如何從簡單的請求中獲知使用者的真正需求。資訊與使用者需求相關性。明確使用者真正意圖後,如何從海量資料中找到與之匹配的內容。資訊可信賴度。即搜尋內容的可靠性、真實性、安全性。

搜尋引擎通常由以下構件組成,搜尋引擎組成圖如圖所示。

搜尋器將網際網路上海量(百億計)網頁資料傳送到本地,在本地形成網際網路網頁備份。

分析器對本地文字庫進行分析以便於索引。文件分析技術包括分析、過濾和轉換等。

索引器理解搜尋器的搜尋資訊,抽取索引項,將文件表示為一種便於檢索的方式並儲存在索引資料庫中,生成文件庫的索引表。索引項分為客觀索引項與內容索引項。客觀索引項與文件內容無關,關注url、更新時間、長度、鏈結流行度等;內容索引項分為單索引項和多索引項,反映文件內容,關注關鍵系權重、短語、單詞等。

41 初識搜尋引擎 Query DSL搜尋語法

搜尋內容在中的就是query dsl搜尋,如 get search 1 語法 2 示例 get test index test type search 結果 hits 舉例說明 1 建立測試document資料 hits 2 搜尋需求 title必須包含elasticsearch,content可以...

搜尋引擎 索引

正排索引 文件編號,單詞編號,單詞的數量,單詞出現的位置。倒排索引 1,單詞詞典,儲存單詞以及統計資訊,單詞在記錄表中的便宜,可常駐記憶體,用雜湊表儲存。2,記錄表,單詞對應的文件集合,記錄單詞出現的數目 位置。文件採用差分變長編碼。其中文件可按編號公升序排列 可利用差分編碼 也可按出現次數排列,可...

MySQL搜尋引擎程式 mysql搜尋引擎

mysql是我們比較常用的一種資料庫軟體。它有著諸多的優點,如開源的,免費的等等。其實它還有乙個很好的特點,那就是有多種引擎可以供你選擇。如果賽車手能根據不同的路況,地形隨手更換與之最適宜的引擎,那麼他們將創造奇蹟。然而目前他們還做不到那樣便捷的更換引擎,但是我們卻可以 所謂知己知彼方可百戰不殆,要...