如何利用百度蜘蛛referer找到報錯頁面入口?

2022-09-24 22:15:15 字數 1236 閱讀 2145

大家應該都知道百度已經全站https並取消referer關鍵詞顯示了(詳情可檢視程式設計驛站文章:百度站點屬性功能公升級 全面取消referer關鍵詞顯示),那麼「百度蜘蛛又是什麼?有什麼妙用嗎?藝龍seo負責人劉明發現通過百度蜘蛛referer可以快速定位部分站內url的報錯(4xx或者5xx)原因。

什麼是百度蜘蛛的referer

百度蜘蛛的referer,是指當百度蜘蛛抓取某乙個url的時候,在http頭中帶的referer欄位。請注意,這程式設計客棧個定義和百度最近宣告去除referer中關鍵詞資料vpvakdwbyc沒有任何關係。這次講的是spider發起的http請求,百度而去除的是使用者發起的。如果百度蜘蛛抓取百度首頁的logo,會發起這樣的請求:

上面referer欄位很明確的表示了他是從www.baidu.com這個頁面上發現並抓取了www.baidu.com/img/bd_logo1.png。而大家在伺服器訪問日誌中也應該能看到相應的記錄。目前發現只有當百度抓取乙個網頁的同時,又抓取了網頁中的:img、js和css才會帶上referer欄位。這部分額外的抓取量,應該不會占用百度分配的抓取配額,屬於「買1送1」。

對於站長的意義

如果你發現有一批url(僅限於img,js,css)報錯(4xx或者5xx),但是一直找不到入口在哪,也就是說你不明白百度蜘蛛是從**發現這些錯誤url的。這個字段可以幫助你迅速定位。

舉個例子

比如我們的seo日誌分析系統中可以看到,符合下面這種url pattern的路徑每天有6萬到10萬的抓取而且全部報404。

從發現問題至今過了1個月,查遍整個**我也沒找到入口。今天偶然仔細查了一下日誌,想起了百度蜘蛛的referer,馬上就能定位問題了。這些404的url來自於一套沒人維護也沒人關注的頁面(往往是這樣)。收錄流量都不錯。由於最近公司系統更新,的url全部更改了,但這套頁面並沒有跟著更新。

如果站點沒有記錄referer怎麼辦?

iis請在這裡勾選「cs(referer)」:

apache請參考:

apache log配置「combined log format」章節

apache log配置的官方鏈結

nginx請參考:

nginx log配置

nginx log配置的官方鏈結

結束語· 很多seo問題並不是立即致命的,所以沒有及時解決。流量就像螞蟻啃大象一樣一點一點啃掉了。

· 系統性的知識積累還是會在關鍵時刻發揮作用的。

本文標題: 如何利用百度蜘蛛referer找到報錯頁面入口?

本文位址:

百度蜘蛛工作表

大家都知道整潔簡單明瞭的 有利於蜘蛛來抓取,但是大家知道蜘蛛的工資表嗎 星期一 8 10 星期二 加油吧 星期三 1 00 4 00 這天也是整個星期最動盪的一天,是讓人又喜又惱的日子,可能你的 快照回退得很遠,可能你的排名公升的很高,不過這天不能決定整個星期,主要在星期四。週三會有一次小更新,無論...

常見的百度蜘蛛IP

123.125.68.這個蜘蛛經常來,別的來的少,表示 可能要進入沙盒了,或被者降權。220.181.68.每天這個ip 段只增不減很有可能進沙盒或k站。121.14.89.這個ip段作為度過新站考察期。203.208.60.這個ip段出現在新站及站點有不正常現象後。210.72.225.這個ip段...

百度蜘蛛爬行日誌分析

一名合格的seoer在做 優化的時候,不僅僅是要做 優化的一些事,我們還需要分析我們的 分析就包括一些使用者訪問的資訊資料的分析還有就是我們 的日誌進行分析。日誌記錄了搜尋引擎對我們 的訪問情況。我們可以通過 日誌來了解搜尋引擎是否喜歡我們的 下面就給大家介紹下 日誌該怎麼進行分析呢?日誌怎麼分析?...