採集與反採集或說防採集

2022-03-11 09:43:24 字數 1207 閱讀 6563

反採集原理

集程式的主要步驟如下:

一、獲取被採集的頁面的內容

二、從獲取**中提取所有用的資料

這種辦法,比較流行的採集器就是火車頭的2.1版本,今天我也測試了一下這個版本,用著還是不錯;它的例程上面講的是採集落伍的貼子,我發現落伍對此還是

非常大方的,雖然discuz程式針對採集也採取了反採集的策略,但落伍對此並沒有限制,大家可以很方便的採集,這我不得不佩服魚的經營策略!當然,就算

有人把落伍再複製乙份,也不可能產生第二個落伍的。

我參照火車採集器的例程,也試了一下採集落伍的幾個貼子,做試驗用;發現也沒費多少周折,就成功了;看來,這採集器的功能確實非常厲害,這樣來做垃圾站的

話,確實很快就可以把內容填充得豐富多彩的!但在試用的過程中也發現,霏凡的和贏政的,有些問題,主要問題還是在有些步驟,限制了cookie驗證,造成

不能使真正的頁面顯出來,以致於無法讀出全部正文,如果沒有正文,當然就沒有辦法來篩選內容了;霏凡用的是phpwind,贏政用的是discuz,我

table 布局,此方法是麻煩了點,乙個內容頁面,要多做幾個模板頁面,不過防採集本身就是一件很煩瑣的事情,多做乙個模板,能起到防採集的作用,對很

多人來說,都是值得的。

2、如果嫌上面的方法太麻煩,把網頁裡的重要html標記隨機化,也可以。

做的網頁模板越多,html**越是隨機化,對方分析起內容**時,就越麻煩,對方針對你的**專門寫採集策略時,難度就更大,在這個時候,絕大部分人,

都會知難而退,因為這此人就是因為懶,才會採集別人**資料嘛~~~再說一下,目前大部分人都是拿別人開發的採集程式去採集資料,自己開發採集程式去採集

資料的人畢竟是少數。

還有些簡單的思路提供給大家:

1、把對資料採集者重要,而對搜尋引擎不重要的內容用客戶端指令碼顯示

2、把一頁資料,分為n個頁面顯示,也是加大採集難度的方法

3、用更深層的連線,因為目前大部分採集程式只能採集到**內容的前3層,如果內容所在的連線層更深,也可以避免被採集。不過這樣可能會給客戶造成瀏覽上的不便。

如:大多**都是 首頁----內容索引分頁----內容頁

如果改成:

首頁----內容索引分頁----內容頁入口----內容頁

注:內容頁入口最好能加上自動轉入內容頁的**

其實,只要做好防採集的第一步(加密分頁檔名規則),防採集的效果就已經不錯了,還是建議兩條反採集方法同時使用,給採集者增加採集難度,使得他們知難頁退。

防採集的有效方法

解決方法 注意zzz 使用無效的html標籤,這樣瀏覽器就不顯示,但採集時因為無法設定開始 或結束 無法儲存規則。採集原理 很多採集程式都是逐步捉取而拿到想要的內容的,通常情況下是擷取頭部和尾部來獲取中間一部分,當你的文章列表或者內容沒有規則,採集程式找不到您的通用頭部和尾部的時候,自然就採集不了,...

10條防採集建議

筆者自己是寫採集器的,所以對 防採集有一些心得體會。因為是在上班時間,各種方法只是簡單的提及。很多防採集方法在施行的時候需要考慮是否影響搜尋引擎對 的抓取,所以先來分析下一般採集器和搜尋引擎爬蟲採集有何不同。相同點 a.兩者都需要直接抓取到網頁原始碼才能有效工作,b.兩者單位時間內會多次大量抓取被訪...

curl根據cookie防採集

header content type text html charset utf 8 cookie file dirname file cookie.txt cookie file tempnam tmp cookie 先獲取cookies並儲存 url ch curl init url 初始化 ...