乙隻健壯的爬蟲是怎樣煉成的

python新人，爬蟲玩的多了，漸漸的也有了自己的一些感悟，這裡不談具體操作，就寫了幾條自己的總結，每一條背後都是失敗的經驗教訓，當你把爬蟲「放心」的執行一晚上後，一大早起來發現程式早就異常死掉了，很多都沒爬到時，你就知道下面這些建議的意義了。

1.爬蟲必須增加容錯處理，不能因為乙個錯誤就終止整個程式；

2.重要的內容請時刻儲存為檔案，防止程式異常終止時，丟失所有已爬取資訊；

3.最好增加錯誤清單：當面對大量資料時，很難說一次就能成功爬取全部內容，當產生不期的錯誤時，將爬取失敗的此條鏈結儲存下來（檔案），以便於後面分析錯誤原因和再次爬取

4.最好能分步驟爬取，減少失敗風險，如第一步爬取所有鏈結，第二步再爬取所有鏈結內的內容；

5.爬取過程適當顯示關鍵點資訊（如成功訪問網頁後可顯示網頁title），便於知道每一小段程式執行狀態，就算出錯了也能知道錯在那一塊。

6.優秀的爬蟲多次爬取不會重複：「不會重複」是指不產生重複內容，也不重複爬取。最好的爬蟲是能夠在程式異常中斷後，再啟時可以從任何位置開始爬取；次之的爬蟲則是每次爬取時增加重複判斷功能，比如爬蟲爬取一部分後意外中斷或卡住，那麼再次爬取時可以讀取之前爬取的檔案列表，將這部分已爬取的從整體中去除（用python的差集運算），爬取未爬取的即可。

7.人道主義，爬取不可太頻繁占用**伺服器，也是為了避免自己被反爬限ip

乙隻健壯的爬蟲是怎樣煉成的

乙隻爬蟲的產生

乙隻垂直的小爬蟲

敏捷是怎樣煉成的

乙隻健壯的爬蟲是怎樣煉成的

乙隻爬蟲的產生

乙隻垂直的小爬蟲

敏捷是怎樣煉成的

相關推薦