搜尋引擎技術總結2 google原理總結

2021-04-21 05:38:05 字數 656 閱讀 7140

google原理:crawler從urlserver獲得網域名稱列表,將搜尋到的網頁送入storeserver,壓縮網頁存入repository,並從網頁中解析出乙個新的url時則分配給此網頁一docid.indexer讀取repository,解壓並解析文件,每一文件轉換成一組具體值為hits的一組詞。hits記錄了該單詞及在文件中的位置,字型大小等。indexer把這些hits分配到一組barrels中。

生成乙個部分排序的正向索引,另外,indexer解析出在每一網頁中的所有鏈結並把有關網頁資訊儲存在anchors file中,這資訊可以分辨每一鏈結的來龍去脈和鏈結文字。urlresolver讀取末端檔案並把相對url轉換成絕對url以及docid.根據anchors file指向的docid對anchors file進行正向索引,同時生成一鏈結庫儲存docid,鏈結庫用於進行對所有文件的pagerank.

sorter提取barrels(以docid排序),據wordid重新排序,生成倒排索引,此過程在barrel中進行,以便少占用臨時空間。sorter把wordid和偏移量(在barrel中的偏移?)列表放入倒序索引,dumplexicon將此列表與indexer生成的lexicon合併,生成新的lexicon供searcher使用。searcher運用lexicon和倒排索引及pagerank響應搜尋請求。

google架構圖:

Google搜尋引擎的奧秘

pagerank 演算法中使用的數學知識包括 正矩陣性質 特徵值和特徵向量 冪迭代演算法 gauss seidel迭代演算法等.pagerank 得分是介於 0 和 1 之間的乙個數,得分越大表示網頁越重要.1 pagerank基於假設關係 許多優質的網頁中超連結的網頁,必定是優質網頁 以此判定所有...

國內使用google搜尋引擎

谷歌瀏覽器安裝谷歌訪問助手方法 上面的方法好像失效了,以下是更新 2019.12.17 chrome瀏覽器訪問 chrome extensions 把解壓後的資料夾拖進去 如下圖 新的訪問方式 2021年7月30日更新 谷歌訪問助手外掛程式用不了了,現在用別的外掛程式 iguge 可以正常使用 提取...

搜尋引擎檢索技術

謝海勸 如此簡單的乙個輸入框 搜尋按鈕,卻可以實現如此神奇的一站式搜尋服務,為使用者提供豐富 準確的資訊,這要歸功於乙個強勁的後台引擎。使用者可曾想過,這麼簡單的行為,後台引擎可能會有成千上萬臺機器在為你服務。搜尋引擎就像一台高效運轉的發動機,不停響應使用者的請求,輸出使用者想要的資訊。高效的檢索系...