記錄一次簡單python爬蟲遇到的問題

2021-08-30 06:23:58 字數 574 閱讀 9792

1. python版本問題。

2. 爬蟲ip被封。

這次我用了兩種思路。乙個是更換**,就是指定header, 使用fake_useragent包的useragent來隨機使用header。還有一種是使用ip**,和的requests方法,不知道為什麼urllib是不可以的。

3. 儲存問題。

是採用mongodb來進行儲存,這裡有兩個坑,乙個是爬蟲這種東西資料**其實並不可信,比如唯一性等,所以一定一定不能用得到的資訊來建立主鍵索引,因為隨時有可能主鍵衝突,一頁裡有乙個主鍵衝突了那這一頁都寫不了了,分分鐘讓人**?;還有乙個就是create_time和update_time也很重要(規範編碼),因為爬取的資料,如果在某一時間段內是無效的,可能需要把這些資料刪除掉,但是如果沒有這些,要刪除指定時間段的資料也是很讓人頭大的。

4. 編碼問題。

防禦式程式設計!防禦式程式設計!防禦式程式設計!重要事情說三遍,外來資料本來就是不可靠的,更何況是爬取的網頁這麼不可靠的東西。如果防禦式程式設計沒有完全落實,npe、outofbounds分分鐘炸給你看,其實設計的時候多寫幾行**,比異常丟擲了,**跑飛了,檢查資料,刪除資料,重新確定下標,再加上**要省時得多。

記錄一次自己爬蟲的案例

簡單來講,爬蟲就是乙個探測機器,它的基本操作就是模擬人的行為去各個 溜達,點點按鈕,查查資料,或者把看到的資訊揹回來。就像乙隻蟲子在一幢樓裡不知疲倦地爬來爬去。你可以簡單地想象 每個爬蟲都是你的 分身 就像孫悟空拔了一撮汗毛,吹出一堆猴子一樣。博主之前先提前安裝的anaconda3 pip inst...

記一次Python爬蟲入門

程式思路 程式步驟 2 分析該網頁的 3 findall查詢出所有的url,儲存到list中 4 遍歷list,儲存到本地 程式原始碼 請求網頁 import time import requests import re import os 請求頭部 headers response request...

第一次除錯python爬蟲

建立檔案 vi pic down.py 執行 pic down.py 報錯 permission denied 解決 chmod a x pic down.py 執行 pic down.py 報錯 pic down.py line 1 import command not found 解決 在頭部加...