10條防採集建議

2021-06-06 01:49:30 字數 2260 閱讀 1982

筆者自己是寫採集器的,所以對**防採集有一些心得體會。因為是在上班時間,各種方法只是簡單的提及。

很多防採集方法在施行的時候需要考慮是否影響搜尋引擎對**的抓取,所以先來分析下一般採集器和搜尋引擎爬蟲採集有何不同。

相同點:a. 兩者都需要直接抓取到網頁原始碼才能有效工作,b. 兩者單位時間內會多次大量抓取被訪問的**內容;c. 巨集觀上來講兩者ip都會變動;d. 兩者多沒耐心的去破解你對網頁的一些加密(驗證),比如網頁內容通過js檔案加密,比如需要輸入驗證碼才能瀏覽內容,比如需要登入才能訪問內容等。

不同點:搜尋引擎爬蟲先忽略整個網頁原始碼指令碼和樣式以及html標籤**,然後對剩下的文字部分進行切詞語法句法分析等一系列的複雜處理。而採集器一般是通過html標籤特點來抓取需要的資料,在製作採集規則時需要填寫目標內容的開始標誌何結束標誌,這樣就定位了所需要的內容;或者採用對特定網頁製作特定的正規表示式,來篩選出需要的內容。無論是利用開始結束標誌還是正規表示式,都會涉及到html標籤(網頁結構分析)。

然後再來提出一些防採集方法

1、限制ip位址單位時間的訪問次數

分析:沒有哪個常人一秒鐘內能訪問相同**5次,除非是程式訪問,而有這種喜好的,就剩下搜尋引擎爬蟲和討厭的採集器了。

弊端:一刀切,這同樣會阻止搜尋引擎對**的收錄

適用**:不太依靠搜尋引擎的**

採集器會怎麼做:減少單位時間的訪問次數,減低採集效率

3、利用js加密網頁內容

note:這個方法我沒接觸過,只是從別處看來

分析:不用分析了,搜尋引擎爬蟲和採集器通殺

適用**:極度討厭搜尋引擎和採集器的**

採集器會這麼做:你那麼牛,都豁出去了,他就不來採你了

5、使用者登入才能訪問**內容

分析:搜尋引擎爬蟲不會對每個這樣型別的**設計登入程式。聽說採集器可以針對某個**設計模擬使用者登入提交表單行為。

適用**:極度討厭搜尋引擎,且想阻止大部分採集器的**

採集器會怎麼做:製作擬使用者登入提交表單行為的模組

6、利用指令碼語言做分頁(隱藏分頁)

分析:還是那句,搜尋引擎爬蟲不會針對各種**的隱藏分頁進行分析,這影響搜尋引擎對其收錄。但是,採集者在編寫採集規則時,要分析目標網頁**,懂點指令碼知識的人,就會知道分頁的真實鏈結位址。

適用**:對搜尋引擎依賴度不高的**,還有,採集你的人不懂指令碼知識

採集器會怎麼做:應該說採集者會怎麼做,他反正都要分析你的網頁**,順便分析你的分頁指令碼,花不了多少額外時間。

7、防盜煉措施(只允許通過本站頁面連線檢視,如:request.servervariables(「http_referer「) )

分析:asp/' target='_blank' class='infotextkey'>asp和php可以通過讀取請求的http_referer屬性,來判斷該請求是否來自本**,從而來限制採集器,同樣也限制了搜尋引擎爬蟲,嚴重影響搜尋引擎對**部分防盜煉內容的收錄。

適用**:不太考慮搜尋引擎收錄的**

採集器會怎麼做:偽裝http_referer嘛,不難。

8、全flash、或者pdf來呈現**內容

分析:對搜尋引擎爬蟲和採集器支援性不好,這個很多懂點seo的人都知道

適用**:**設計類並且不在意搜尋引擎收錄的**

採集器會怎麼做:不採了,走人

9、**隨機採用不同模版

分析:因為採集器是根據網頁結構來定位所需要的內容,一旦先後兩次模版更換,採集規則就失效,不錯。而且這樣對搜尋引擎爬蟲沒影響。

適用**:動態**,並且不考慮使用者體驗。

採集器會怎麼做:乙個**模版不可能多於10個吧,每個模版弄乙個規則就行了,不同模版採用不同採集規則。如果多於10個模版了,既然目標**都那麼費勁的更換模版,成全他,撤。

10、採用動態不規則的html標籤

分析:這個比較**。考慮到html標籤內含空格和不含空格效果是一樣的,所以<  div >和<   div    >對於頁面顯示效果一樣,但是作為採集器的標記就是兩個不同標記了。如果每次頁面的html標籤內空格數隨機,那麼

採集規則就失效了。但是,這對搜尋引擎爬蟲沒多大影響。

適合**:所有動態且不想遵守網頁設計規範的**。

採集器會怎麼做:還是有對策的,現在html cleaner還是很多的,先清理了html標籤,然後再寫採集規則;應該用採集規則前先清理html標籤,還是能夠拿到所需資料。

總結:一旦要同時搜尋引擎爬蟲和採集器,這是很讓人無奈的事情,因為搜尋引擎第一步就是採集目標網頁內容,這跟採集器原理一樣,所以很多防止採集的方法同時也阻礙了搜尋引擎對**的收錄,無奈,是吧?以上10條建議雖然不能百分之百防採集,但是幾種方法一起適用已經拒絕了一大部分採集器了。

採集與反採集或說防採集

反採集原理 集程式的主要步驟如下 一 獲取被採集的頁面的內容 二 從獲取 中提取所有用的資料 這種辦法,比較流行的採集器就是火車頭的2.1版本,今天我也測試了一下這個版本,用著還是不錯 它的例程上面講的是採集落伍的貼子,我發現落伍對此還是 非常大方的,雖然discuz程式針對採集也採取了反採集的策略...

按期完成IT專案的10條建議

按期完成it專案的10條建議 變化無常的時間計畫,或高估或低估時間期限,也就是所謂的 需求漸變問題 以及突如其來的員工生病事件或 失敗等等 這些都是會導致您的it專案出錯 或可能出錯 的因素。也許您曾聽說過 時不待我。這雖然只是陳詞濫調,但並不意味著它一點可取之處也沒有,尤其是在鄰近it專案截止日期...

按期完成IT專案的10條建議

按期完成it專案的10條建議 變化無常的時間計畫,或高估或低估時間期限,也就是所謂的 需求漸變問題 以及突如其來的員工生病事件或 失敗等等 這些都是會導致您的it專案出錯 或可能出錯 的因素。也許您曾聽說過 時不待我。這雖然只是陳詞濫調,但並不意味著它一點可取之處也沒有,尤其是在鄰近it專案截止日期...