採集與反採集或說防採集

反採集原理

集程式的主要步驟如下：

一、獲取被採集的頁面的內容

二、從獲取**中提取所有用的資料

這種辦法，比較流行的採集器就是火車頭的2.1版本，今天我也測試了一下這個版本，用著還是不錯；它的例程上面講的是採集落伍的貼子，我發現落伍對此還是

非常大方的，雖然discuz程式針對採集也採取了反採集的策略，但落伍對此並沒有限制，大家可以很方便的採集，這我不得不佩服魚的經營策略！當然，就算

有人把落伍再複製乙份，也不可能產生第二個落伍的。

我參照火車採集器的例程，也試了一下採集落伍的幾個貼子，做試驗用；發現也沒費多少周折，就成功了；看來，這採集器的功能確實非常厲害，這樣來做垃圾站的

話，確實很快就可以把內容填充得豐富多彩的！但在試用的過程中也發現，霏凡的和贏政的，有些問題，主要問題還是在有些步驟，限制了cookie驗證，造成

不能使真正的頁面顯出來，以致於無法讀出全部正文，如果沒有正文，當然就沒有辦法來篩選內容了；霏凡用的是phpwind，贏政用的是discuz，我

table 布局，此方法是麻煩了點，乙個內容頁面，要多做幾個模板頁面，不過防採集本身就是一件很煩瑣的事情，多做乙個模板，能起到防採集的作用，對很

多人來說，都是值得的。

2、如果嫌上面的方法太麻煩，把網頁裡的重要html標記隨機化，也可以。

做的網頁模板越多，html**越是隨機化，對方分析起內容**時，就越麻煩，對方針對你的**專門寫採集策略時，難度就更大，在這個時候，絕大部分人，

都會知難而退，因為這此人就是因為懶，才會採集別人**資料嘛~~~再說一下，目前大部分人都是拿別人開發的採集程式去採集資料，自己開發採集程式去採集

資料的人畢竟是少數。

還有些簡單的思路提供給大家：

1、把對資料採集者重要，而對搜尋引擎不重要的內容用客戶端指令碼顯示

2、把一頁資料，分為n個頁面顯示，也是加大採集難度的方法

3、用更深層的連線，因為目前大部分採集程式只能採集到**內容的前3層，如果內容所在的連線層更深，也可以避免被採集。不過這樣可能會給客戶造成瀏覽上的不便。

如：大多**都是首頁----內容索引分頁----內容頁

如果改成：

首頁----內容索引分頁----內容頁入口----內容頁

注：內容頁入口最好能加上自動轉入內容頁的**

其實，只要做好防採集的第一步(加密分頁檔名規則)，防採集的效果就已經不錯了，還是建議兩條反採集方法同時使用，給採集者增加採集難度，使得他們知難頁退。

防採集的有效方法

解決方法注意zzz 使用無效的html標籤，這樣瀏覽器就不顯示，但採集時因為無法設定開始或結束無法儲存規則。採集原理很多採集程式都是逐步捉取而拿到想要的內容的，通常情況下是擷取頭部和尾部來獲取中間一部分，當你的文章列表或者內容沒有規則，採集程式找不到您的通用頭部和尾部的時候，自然就採集不了，...

10條防採集建議

筆者自己是寫採集器的，所以對防採集有一些心得體會。因為是在上班時間，各種方法只是簡單的提及。很多防採集方法在施行的時候需要考慮是否影響搜尋引擎對的抓取，所以先來分析下一般採集器和搜尋引擎爬蟲採集有何不同。相同點 a.兩者都需要直接抓取到網頁原始碼才能有效工作，b.兩者單位時間內會多次大量抓取被訪...

curl根據cookie防採集

header content type text html charset utf 8 cookie file dirname file cookie.txt cookie file tempnam tmp cookie 先獲取cookies並儲存 url ch curl init url 初始化 ...

採集與反採集或說防採集

防採集的有效方法

10條防採集建議

curl根據cookie防採集

相關推薦