爬蟲遇到的問題

特殊字串處理的問題：

「第一佳大雞排（新街口店）/黃燜雞公尺飯」被識別成資料夾名

#處理特殊字元"/"
dex0 = line[6].find("/")
if dex0 != -1:
line[6] = line[6][0:dex0]

「約翰大叔▪比薩（龍躍店）「輸出時，有特殊字元，無法輸出。

# 處理特殊字元"▪"
dex1 = line[6].find("▪")
if dex1 != -1:
line[6] = line[6][0:dex1]

**：

問題.將unicode字元編碼成gbk出現問題，因為本身unicode型別的字元中，包含了一些無法轉換為gbk編碼的一些字元

如下圖，

解決方法：unicode字元編碼時，新增ignore引數，忽略無法無法編碼的字元

即str.encode('gbk', 'ignore')這種格式

4.29-4.30號

爬蟲總結：這兩天寫爬蟲，第乙個知道自己最致命的乙個問題是，無法將全域性問題和區域性問題定位很好。

1、爬取資訊，盡量越少檔案約好，一開始分了好多個子文件，**才會那麼做。

2、關於python編碼的問題真的是夠夠的，第乙個辦法是用python3，然後只要有這樣的問題，就encode「utf-8」一下

Python 爬蟲中遇到的反爬蟲問題

源一般會有下面幾種限制 1 一定時間內單個ip訪問次數，乙個正常使用者訪問除非是隨意的點著玩，否則不會在一段持續時間內過快訪問乙個持續時間也不會太長，我們可以採用大量不規則 ip形成乙個執行緒池，隨機從池中選擇模擬訪問。有兩種，透明和匿名 2 一定時間內單個賬號訪問次數，如果乙個人一天2...

編寫爬蟲遇到的問題總結

1，編碼問題設定檔案編碼格式utf 8 2.連線超時異常或者設定timeout 沒有設定timeout引數，結果在網路環境不好的情況下，時常出現read 方法沒有任何反應的問題，程式卡死在read 方法裡，搞了大半天，才找到問題，給urlopen加上timeout就ok了，設定了timeout之...

scrapyd部署爬蟲遇到的問題

1.windows下 scrapyd deploy無字尾檔案不能啟動執行命令pip install scrapy client，安裝完成後，在虛擬環境的scripts中會出現scrapyd deploy無字尾檔案，這個scrapyd deploy無字尾檔案是啟動檔案，在linux系統下可以執行，在...

爬蟲遇到的問題

Python 爬蟲中遇到的反爬蟲問題

編寫爬蟲遇到的問題總結

scrapyd部署爬蟲遇到的問題

相關推薦