搜尋引擎手記(三)之網頁的去重

2021-07-08 15:38:30 字數 631 閱讀 2859

015

年4月1日

(星期二

)晴 南風

今天是愚人節,我們給同事過愚人節,爬蟲也讓我們技術部過了愚人節。通過對抓取資料的分析,發現有20%的資料都是重複資料。開會討論,原來有兩個問題,乙個爬蟲引擎有重大bug;另外乙個問題,竟然對網頁沒有做去重處理。啊!my god!

通過和群裡進行技術交流,大概明白了解決問題的思路。爬蟲爬下的網頁在通過etl工具抽取到搜尋引擎時候需要對內容進行去重的操作。評價網頁內容重複的問題,大體上分為4種:

1、完全重複 文件內容和布局格式上毫無差別;

2、內容重複 文件內容相同,布局格式不同;

3、布局重複 文件重要的內容相同,布局相同;

4、部分重複 文件重要內容相同,布局格式不同。

我們出現的問題的原因,是因為爬蟲組,只是對內容進行了簡單的md5加密,作為索引。

不專業害死人呀!

我翻了翻網上的資料,網頁去重流程大體如下圖:

去重的演算法還不太複雜。大體上有shingle演算法、supershinge演算法、i-match演算法和simhash演算法。在後面的幾個章節,我會一一娓娓道來。

搜尋引擎 聊一聊網頁去重

網頁去重是有必要而且有好處的,首先,相似的網頁肯定沒有意思,應該提高使用者的體驗,所以應該把相似的網頁去重後顯示,或者聚合後顯示.其次,如果某些網頁相似的很多,說明其中內容 如果是非人為惡意製造的話 應該是最近比較熱門的內容,應該優先展示,還有,相似網頁去重可以節省索引空間.所謂的網頁重複可以分為以...

搜尋引擎如何去抓取網頁

搜尋引擎看似簡單的抓取 入庫 查詢工作,但其中各個環節暗含的演算法卻十分複雜。搜尋引擎抓取頁面工作靠蜘蛛 spider 來完成,抓取動作很容易實現,但是抓取哪些頁面,優先抓取哪些頁面卻需要演算法來決定,下面介紹幾個抓取演算法 1 寬度優先抓取策略 我們都知道,大部分 都是按照樹狀圖來完成頁面分布的,...

搜尋引擎優化的三重境界

古今之成大事業,大學問者,無不經過三種之境界。對於做seo的站長而言,也有三道關要闖。或許這篇文章不像其他經驗分享一樣能夠告訴你具體的方法,因為再好的方法,也是需要自己去探索,去實踐,方能掌握。而這篇文章,正是為了能給予大家啟發,了解s的本質。第一重 昨夜西風凋碧樹,獨上高樓,望盡天涯路 剛開始接觸...