爬蟲遇到的問題

2021-07-31 08:57:33 字數 743 閱讀 3866

特殊字串處理的問題:

「第一佳大雞排(新街口店)/黃燜雞公尺飯」被識別成資料夾名

#處理特殊字元"/"

dex0 = line[6].find("/")

if dex0 != -1:

line[6] = line[6][0:dex0]

「約翰大叔▪比薩(龍躍店)「輸出時,有特殊字元,無法輸出。

# 處理特殊字元"▪"

dex1 = line[6].find("▪")

if dex1 != -1:

line[6] = line[6][0:dex1]

**:

問題.將unicode字元編碼成gbk出現問題,因為本身unicode型別的字元中,包含了一些無法轉換為gbk編碼的一些字元

如下圖,

解決方法:unicode字元編碼時,新增ignore引數,忽略無法無法編碼的字元

即str.encode('gbk', 'ignore')這種格式

4.29-4.30號

爬蟲總結:這兩天寫爬蟲,第乙個知道自己最致命的乙個問題是,無法將全域性問題和區域性問題定位很好。

1、爬取資訊,盡量越少檔案約好,一開始分了好多個子文件,**才會那麼做。

2、關於python編碼的問題真的是夠夠的,第乙個辦法是用python3,然後只要有這樣的問題,就encode「utf-8」一下

Python 爬蟲中遇到的反爬蟲問題

源 一般會有下面幾種限制 1 一定時間內單個ip訪問次數,乙個正常使用者訪問 除非是隨意的點著玩,否則不會在一段持續時間內過快訪問乙個 持續時間也不會太長,我們可以採用大量不規則 ip形成乙個執行緒池,隨機從 池中選擇 模擬訪問。有兩種,透明 和匿名 2 一定時間內單個賬號訪問次數,如果乙個人一天2...

編寫爬蟲遇到的問題總結

1,編碼問題 設定檔案編碼格式utf 8 2.連線超時 異常或者設定timeout 沒有設定timeout引數,結果在網路環境不好的情況下,時常出現read 方法沒有任何反應的問題,程式卡死在read 方法裡,搞了大半天,才找到問題,給urlopen加上timeout就ok了,設定了timeout之...

scrapyd部署爬蟲遇到的問題

1.windows下 scrapyd deploy無字尾檔案不能啟動 執行命令pip install scrapy client,安裝完成後,在虛擬環境的scripts中會出現scrapyd deploy無字尾檔案,這個scrapyd deploy無字尾檔案是啟動檔案,在linux系統下可以執行,在...