記錄一次簡單python爬蟲遇到的問題

1. python版本問題。

2. 爬蟲ip被封。

這次我用了兩種思路。乙個是更換**，就是指定header，使用fake_useragent包的useragent來隨機使用header。還有一種是使用ip**，和的requests方法，不知道為什麼urllib是不可以的。

3. 儲存問題。

是採用mongodb來進行儲存，這裡有兩個坑，乙個是爬蟲這種東西資料**其實並不可信，比如唯一性等，所以一定一定不能用得到的資訊來建立主鍵索引，因為隨時有可能主鍵衝突，一頁裡有乙個主鍵衝突了那這一頁都寫不了了，分分鐘讓人**?；還有乙個就是create_time和update_time也很重要（規範編碼），因為爬取的資料，如果在某一時間段內是無效的，可能需要把這些資料刪除掉，但是如果沒有這些，要刪除指定時間段的資料也是很讓人頭大的。

4. 編碼問題。

防禦式程式設計！防禦式程式設計！防禦式程式設計！重要事情說三遍，外來資料本來就是不可靠的，更何況是爬取的網頁這麼不可靠的東西。如果防禦式程式設計沒有完全落實，npe、outofbounds分分鐘炸給你看，其實設計的時候多寫幾行**，比異常丟擲了，**跑飛了，檢查資料，刪除資料，重新確定下標，再加上**要省時得多。

記錄一次簡單python爬蟲遇到的問題

記錄一次自己爬蟲的案例

記一次Python爬蟲入門

第一次除錯python爬蟲

記錄一次簡單python爬蟲遇到的問題

記錄一次自己爬蟲的案例

記一次Python爬蟲入門

第一次除錯python爬蟲

相關推薦