Python爬蟲總結 常見的報錯 問題及解決方案

2021-10-01 16:56:04 字數 1322 閱讀 7711

問題:ip被封,或者因訪問頻率太高被攔截???

解決方案之一:

使用**ip即可。

問題:正確使用xpath之後並沒有輸出???

解決方案之一:

xpath只能提取未注釋的**,改用正規表示式即可。

問題:容易被反爬搞死???

解決方案之一:

headers中都要帶上user-agent,而cookie能不帶則不帶。

報錯:

型別錯誤:需要類似位元組的物件,而不是字串???

解決方案之一:

str通過encode()方法可以編碼為指定的bytes;

ps:反過來,如果我們從網路或磁碟上讀取了位元組流,那麼讀到的資料就是bytes。要把bytes變為str,就需要用decode()方法。

報錯:

utf-8不能處理位元組???

解決方案之一:

在headers中加入cookie即可輸出正常的html。

報錯:

『 gbk 』不能處理『 \xa0 』 ???

解決方案之一:

with

open

('%s.html'

% title,

'w', encoding=

'utf-8'

)as f:

f.write(rep)

問題:

輸出結果是位元組型別,json物件無法正常顯示???

解決方案之一:

使用json.loads方法即可。

問題:

url =

''

**複製到py檔案中,卻變成了「亂碼」???

解決方案之一:

呼叫urllib.parse.unquote進行url解碼即可。

問題:解決方案之一:

分析url時,我們一般從第二頁開始分析,而不是第一頁。

問題:不想cookie中攜帶自身賬號內容???

解決方案之一:

利用瀏覽器的無痕視窗功能,進入網頁再取cookie即可。

報錯:解決方案之一:

報錯:解決方案之一:

未完待續哦~~~~

為我心愛的女孩~~

Python爬蟲總結 常見的報錯 問題及解決方案

問題 ip被封,或者因訪問頻率太高被攔截?解決方案之一 使用 ip即可。問題 正確使用xpath之後並沒有輸出?解決方案之一 xpath只能提取未注釋的 改用正規表示式即可。問題 容易被反爬搞死?解決方案之一 headers中都要帶上user agent,而cookie能不帶則不帶。報錯 utf 8...

常見Python爬蟲工具總結

前言 以前寫爬蟲都是用requests包,雖然很好用,不過還是要封裝一些header啊什麼的,也沒有用過無頭瀏覽器,今天偶然接觸了一下。原因是在處理乙個錯誤的時候,用到了幾個以前沒有用過的工具 這幾個工具也挺常見的,在這裡一起總結一下。包括以下幾個 selenium 簡介安裝 簡單使用from se...

python 爬蟲 報錯 求救

在找到某度文庫文件的js檔案鏈結後想用json.loads 進行解析 以上為鏈結的js 檔案 import json import re deffetch url url headers session requests.session return session.get url,headers ...