小規模爬取豆瓣所出現的問題

2021-07-24 12:34:24 字數 328 閱讀 1485

閒來無事想去爬爬豆瓣的動漫,然後定期爬取解決下劇荒的問題,發現豆瓣對爬蟲的存在並不是很友好。

首先出現的就是驗證碼的問題,在獲得全部的鏈結後準備逐個訪問獲取資料時明顯感覺到爬取資料有所下降,300個左右的資料用了7分鐘左右。其次在爬取300多個資料後,程式報錯,返回了response<403>,豆瓣伺服器積極拒絕掉了,重新對網頁檢查了下發現網頁的cookie更換了,但是在更換cookie後爬了同樣的資料後在300的位置又被限制訪問了。

要解決的問題很多,先占個坑先。

利用Python爬蟲爬取京東(小規模)

一.開發環境 本文執行環境為windows10 python3.7 使用的第三方庫有selenium 操作瀏覽器 pymysql 資料庫 bs4 解析 chrome chromedriver 二.先決條件 利用京東的搜尋結果,然後把結果儲存起來 那麼接下來就是找到京東搜尋的相關url。因為可見即可爬...

cmake專案所出現的問題

問題1 cmake專案時,出現了opencv dir not found 的錯誤 採取的是手動新增路徑d open cv opencv2 49 build的方法,之後生成成功 問題2 camke的專案,應該是將原始檔的路徑新增到cmake中,而不是複製乙份原始檔。所以,如果修改原始檔,或者cmake...

爬取豆瓣讀書的書籍(一)

環境準備 python3 pycharm 2018.3.4 x64 google chrome瀏覽器 爬取豆瓣讀書書籍的基本步驟 1 在pycharm中匯入urllib模組的request 2 獲取豆瓣讀書網的url資訊和user agent 3 用urlopen開啟 並傳送請求 4 用urlret...