爬蟲與反爬蟲的攻防博弈

遙想當年，我的第乙份實習工作，還就是做的爬蟲呢。不知不覺 7 年過去了，如今首例利用爬蟲技術非法盜抓資料案都已經被判違法了。

我記得我第乙份實習工作，就是做的爬蟲，利用爬蟲技術，去爬取各種論壇和**，然後要做到記錄到每個論壇帖子的發帖時間，在論壇的板塊，頁數，發帖時間，發帖 id ，然後儲存起來，可以做到搜尋關鍵字快速定位到哪個論壇的那一頁，哪個帖子。而且這個爬蟲技術基本上要做到可以適配幾乎所有，可以說很多**和論壇。

如今呢？現在爬蟲都犯法了，今天早上醒來，看到大家都在微博**，尤其是技術圈裡的人，都在說這件事。

其實小公司，小**，沒有做反爬蟲的技術處理，爬蟲**就簡單多了，這個沒有什麼技術含量。而這個案例中被告人使用偽造 device_id 繞過伺服器的身份校驗，使用偽造 ua 及 ip 繞過伺服器的訪問頻率限制進行爬蟲說明是違背了內容提供者意願的。

說實話，做過爬蟲的都知道，常用的反爬蟲手段基本上都是這樣的，限制 ip 的訪問次數，檢查判斷是否有同乙個裝置在頻繁不斷請求（也就是檢查 device_id）。

說白了最常見的反爬蟲手段有三種：

對於爬蟲者來講，可以非常方便的獲取別人辛辛苦苦收集和整理的資訊，內容等，但是大量的爬蟲也可能會給內容提供者的**和伺服器造成重大的壓力，因為有些暴力爬蟲者，不管三七二十一，頻繁請求別人的伺服器，導致伺服器壓力過大。

（來自網路，侵刪）

在這起案件中，法官認為：

在資訊時代，「爬蟲」技術是一種常見的資料抓取技術，最常用的領域是搜尋引擎，該技術的有效使用有利於資料的共享和分析、造就了網際網路生態的繁榮，但並不意味該技術的使用沒有邊界。法官在此提醒網際網路行業的從業人員，必須在法律的框架之內合理使用該技術，違反法律規定利用該技術非法獲取資料可能構成犯罪。

所以這起案件給我們的提示和警醒就是：

要善用爬蟲，不要爬蟲具有版權和原創的知識，內容，產品，更不要傳播。

要慎用爬蟲，不要使用爬蟲技術去獲取違背內容提供者意願的資訊。

要對用爬蟲，不要暴力使用爬蟲技術，給別人的伺服器造成壓力和損害。

尤其是利用爬蟲技術獲取資訊去獲利，去商用的人和企業，尤其是同行之間競爭的人，要小心了，一旦被抓到，這個案例就是乙個很好的例子。