運營筆記 是時候了解蜘蛛爬取原理了!揭秘收錄難題!

2021-10-05 15:21:18 字數 1127 閱讀 2628

很多人在做seo的時候,搞不清蜘蛛爬取的原理或者對收錄索引都搞不清關係,這篇文章主要針對實戰來講解蜘蛛和收錄的關係,不講原理,只講乾貨和經驗。

首先我們提到蜘蛛可能就可能想到ip,比如以下這些;

220.181.108.89專用抓取首頁ip 權重段,一般返回**是304 0 0代表未更新。

220.181.108.94專用抓取首頁ip 權重段,一般返回**是304 0 0代表未更新。

220.181.108.97專用抓取首頁ip 權重段,一般返回**是304 0 0代表未更新。

220.181.108.80專用抓取首頁ip 權重段,一般返回**是304 0 0代表未更新。

220.181.108.77 專用抓首頁ip 權重段,一般返回**是304 0 0代表未更新。

是不是很難理解?但是如果做過網路維護、或者區域網組網的就能明白,其實每個ip對應的就是一台電腦,每組伺服器組對應的就是網段。

比如,220.181.108.x這個網段,我們暫且叫收錄伺服器組,這個伺服器組下面有電腦abcde,對應的ip,每台電腦上裝著相應的收錄程式。

比如你提交了1、2、3個鏈結,這三個鏈結分別提交到了收錄伺服器組的c、d、e號電腦,所以你檢視日誌的時候會發現,這三條鏈結對應不同的ip,也就是對應著不同的電腦。

那為什麼提交3條鏈結會提交到三颱不同電腦呢?我個人猜測,或許提交的資料太多,同一臺電腦處理不了,所以採取了分布處理方式。(個人猜測,並非是研究證明,或許是更高階的處理方式)。

116.179.32.135——伺服器1

220.181.108.122——伺服器2

220.181.108.180——伺服器3

第一篇文章寫完後,文章過幾分鐘秒收錄,然後我模仿第一篇寫作框架,繼續寫第二篇,第二篇也過幾分鐘秒收,然後接著寫第三篇,可惜的是,第三篇沒有收錄。

但第二天,這三篇全部收錄,也就是說,第三篇變成了隔天收錄。

結合上面實戰的經驗包括以往收錄爬取的蜘蛛分析,只要是鏈結提交到116.179.32.135,或者220.181.108.122、220.181.108.180等等,那麼鏈結必定收錄,所以唯一解開收錄密碼的難點在於,如果控制鏈結提交到這些伺服器?

甚至有人戲謔稱,220開頭的是官方蜘蛛,而116開頭是老家蜘蛛,呵呵,希望大佬一起來研究這個問題。

文章首發運營正經說:

什麼是運營

什麼是運營?運營崗位有哪些?運營需要學習哪些知識點?運營如何成長?我認為運營是乙個立體化的工作,運營是從產品出發去連線使用者的一切行為。運營是發現產品的價值,並傳遞給有需要的使用者,引導使用者在使用過程中再度創造價值。通常來說,根據運營人工作的內容進行劃分包括 內容運營 使用者運營 活動運營 產品運...

是時候回歸了

從實習開始,就沒有繼續在csdn上寫過部落格,這一斷就是兩年。這兩年多裡,從實習到工作,雖然一直在寫程式,但是由於工作原因,早已不寫ios,也沒有做客戶端很久了,而是學習了golang,做起了服務端開發。到現在,所負責的服務已經上線了一年多,進行了兩次比較大的改版公升級,其間由於自己服務端開發的經驗...

運營筆記 乙個討喜的運營方案是如何誕生的?

說到運營方案,是很多運營人頭疼的問題,頭疼的不是不會寫,而是怎麼寫出一稿過的方案,畢竟一套方案,如果經過三番四次的修改,那人都要崩潰。那我們就來研究下一稿過運營方案是如何通過老闆的?一稿過的運營方案,需要具體以下幾個特點 1 有邏輯 有條理 有資料 2 整體文筆讓人感覺舒服,並不是嘻哈文 逗比文等,...