第三章《Python3 網路爬蟲開發實戰》

3.1.1

檢視cookie（chrome版）：

3.4-爬取貓眼電影排行

**，崔老師的部落格有，說說我遇到的問題，和記錄

1,關於這個正規表示式匹配問題:

pattern = re.compile(
'.*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?).*?star.*?>(.*?)
.*?releasetime.*?>(.*?)
.*?integer.*?>(.*?).*?fraction.*?>(.*?).*?',
#1,匹配 排名
#.*?board-index.*?>(.*?)
# .*?匹配:(.*?)
#第乙個.*?找到name，
#第二個.*?找到a
#第三個.*?找到》
#第四個.*?找到()
#4,匹配 主演
#.*?star.*?>(.*?)
#第乙個.*?找到star
#第二個.*?找到》
#第三個.*?找到主演
#5,匹配 上映時間
#.*?releasetime.*?>(.*?)
#不再贅述
#6,匹配 評分
#.*?integer.*?>(.*?).*?fraction.*?>(.*?).*?
re.s | re.verbose)
#如果不使用re.s引數，則只在每一行內進行匹配，如果一行沒有，就換下一行重新開始，不會跨行。而使用re.s引數以後，正規表示式會將這個字串作為乙個整體，將「\n」當做乙個普通的字元加入到這個字串中，在整體中進行匹配。

2,寫入檔案：

def write_to_json(content):
with open('result.txt', 'a') as f:
print(type(json.dumps(content)))
f.write(json.dumps(content, ensure_ascii=false,).encode('utf-8'))

遇到

typeerror: write() argument must be str, not bytes

問題:檔案開啟的方式有問題。要使用二進位制形式開啟解決方法:

Python 3 網路爬蟲

python 原來還可以這樣玩 python爬蟲，破解有道翻譯介面引數破解有道翻譯反爬蟲機制 python3網路爬蟲快速入門實戰解析 article details 78123502 python3網路爬蟲五 python3安裝scrapy article details 60156205 py...

Python 3標準庫第三章

時間過得很快，又是一周過去了，今天感覺迷迷糊糊的，不在狀態，然後，下面開始我們的講解，還是跟大家分享一下我自己的一些想法，第一怎麼講了，就是各位如果有懷才不遇的想法，我感覺最好不要有這種想法第二需要競爭對手第三堅持第四蘇格拉底的徒弟，柏拉圖第五講課本身，鍛鍊了我的表達能力第六毅...

Python3 網路爬蟲 1

準備開始寫一些python3關於爬蟲相關的東西，主要是一些簡單的網頁爬取，給身邊的同學入門看。首先我們向網路伺服器傳送get請求以獲取具體的網頁，再從網頁中讀取html內容。python view plain copy print?coding utf 8 from urllib.request i...

第三章 《Python3 網路爬蟲開發實戰》

Python 3 網路爬蟲

Python 3標準庫第三章

Python3 網路爬蟲 1

相關推薦

第三章《Python3 網路爬蟲開發實戰》