Google是這樣抓取網頁的?Google幽靈現象

2021-04-13 04:23:06 字數 1998 閱讀 2995

眼下最熱、最重要的乙個話題就是google幽靈現象。一般情況下,把乙個**遞交到網際網路上,在每月固定更新之前,你會發現這個**出現在索引裡。有時,這個**能夠獲得很高的排名,但可怕的 是,幾天或一周以後,這個**會突然消失。這種幽靈現象困擾著網路新手們,同時也給經驗豐富的網路行家出了一道難題。其實,這種現象很容易理解。

google有兩種網路爬蟲,主爬蟲和新爬蟲。主爬蟲主要負責發現新的網頁。乙個網頁在新索引建立之後,馬上會被主爬蟲發現。如果乙個網頁建立索引需要經過乙個月的時間,這個網頁就會失效。

新索引的建立還需要考慮其他非詢問式的決定因素。這些決定因素關係著網頁排名的高低。為了充分利用這些網頁,而不是浪費時間等著下一次索引演算法的更新,google必須採取一些簡單的措施來猜測排 名,猜測訪客難以利用的新內容是什麼。

儘管google在作猜測,下列內容都是真實可信的:

1) 幽靈登陸頁上的排名不能等同於索引頁的排名。

2) 在每月新資料庫建立之前,必須將幽靈登陸頁從資料庫中移走。但是,這只是暫時的移走。

如果您的索引中有這樣登陸頁,您的主要目標應該是讓該頁在google新頁上擁有排名。若您想做到這點,您需要定期、有規律、最好是每天,有一定間隔地更新**內容。

為什麼您想要在google的新頁上獲取排名?因為在新頁上有排名的**更容易被抓取,索引更容易更新。但是在新頁上的排名不是真正的排名,新頁排名有很強的不穩定性。新頁排名轉化為真正排名需要經過一段時間。

案例分析:同樣的遭遇

(2)經常有人向我們諮詢這類問題,為了滿足不同詢問者的需要,我們寫了一篇文章,希望有所幫助。

當 google搜尋蜘蛛抓取乙個新網頁後,這個新網頁會有什麼反映?

乙個新網頁沒有被google主目錄收取,直到:

1. 該網頁被google主目錄搜尋蜘蛛抓取。

2. 該網頁在被google主目錄搜尋蜘蛛抓取之後,須經過一段更新時間。

只有以上兩條全都滿足,新網頁被google主目錄確確實實抓取到,新網頁上的排名才有可能轉化成真正排名 。

google有兩種抓取形式

1. 主抓取

2. 新抓取

乙個新的網頁眉先被「新抓取」蜘蛛抓取。但也有特例的時候。在google月更新剛剛完成那一段時間之後,乙個網頁通常被「主抓取」蜘蛛抓取。每月更新一般在每個月的20號到28號之間,能夠持續幾天。

1. 「主抓取」蜘蛛= 216.239.46.*

2. 「新抓取」蜘蛛= 64.68.82.*

為了進一步解釋明白新網頁發生的google幽靈現象,我們假設該網頁眉先被「新抓取」蜘蛛抓取。在google兩個月更新之間,「新抓取」蜘蛛來抓取新網頁。在主抓取期間,通過鏈結新網頁能夠被抓 取。新抓取期間,情況也是一樣。

儘管這個網頁沒有經過此次更新,也沒有收錄在google主目錄裡,但是抓取之後,搜尋蜘蛛開始衡量該網頁內容和質量,並把該網頁收錄在搜尋結果裡。這次衡量是十分不穩定的,易受外界影響,經常發生變化。

當每月定期更新來臨時,這些網頁會產生波動。每月定期更新就是google波動。但是,您需要記住,「主抓取」蜘蛛沒有閱讀該網頁,所以這個網頁沒有加入主索引中。所以,當每月更新結束後,這個新 網頁仍被看作是新網頁但是不久以後,「主抓取」蜘蛛將會閱讀這個新網頁,在下個月更新之後,該頁面才能被收錄進主索引。這需要經歷一段時間。在此之前,google不顯示任何匯入鏈結,這個網頁的排名也因此多變、不穩定。

讓我們總結一下:

如果乙個新網頁眉先被乙個「新抓取」蜘蛛抓取,然後被「主抓取」蜘蛛抓取,這個網頁需要經過兩次月更新。換句話說,這個新網頁需要經過兩個月才能被主索引收錄,在被主索引收錄之後,才可能獲取穩定的排名。

這期間新網頁可能在google搜尋結果頁中出現,也可能消失,這種不穩定的情況完全是正常的。

還有一種情況。如果乙個新網頁眉先被「主抓取」蜘蛛抓取(這通常發生在一月的下旬),那麼這個網頁只等乙個月的時間就可以進入「主索引」。

**設計者和擁有者如果不了解google抓取新網頁的過程,他們的工作將難以開展。網頁排名可能一路飆公升,名列前十名,讓人欣喜若狂,也可能陡然狂降,甩出二百名開外,令人垂頭喪氣。抓住 google抓取新網頁的過程規律,網路英雄們將不再迷茫,有的放矢將不會是單純的夢想。

網頁是這樣「層」的

看過一期 職來職往 當時達人們給面試者出了這樣一道問題 下面這張 是由幾層構成的。當時的大螢幕是有動畫效果的,立體感比較強。這個問題很簡單,答案是三層,選手可能由於比較緊張,所以答案有出入。學習了div css這一階段的知識,不禁讓我聯想到了這一期節目,我們所謂的 div 這是跟這位達人的問題切合。...

網頁是這樣「層」的

看過一期 職來職往 當時達人們給面試者出了這樣一道問題 下面這張 是由幾層構成的。當時的大螢幕是有動畫效果的,立體感比較強。這個問題很簡單,答案是三層,選手可能由於比較緊張,所以答案有出入。學習了div css這一階段的知識,不禁讓我聯想到了這一期節目,我們所謂的 div 這是跟這位達人的問題切合。...

規劃網頁的抓取

適當地規劃網頁的抓取,限制單位時間內對乙個 抓取網頁的數量 例如每天不超過2萬個,或者至少每隔30秒才對同乙個 發出下乙個網頁請求,等等 是大規模搜尋引擎必須要認真對待的問題。總之,搜尋引擎需要和 和睦相處 它們是相互依存的。可以考慮乙個 從主頁開始向下,按照鏈結的深度將網頁組織成一層層的,上層中的...