第三章 《Python3 網路爬蟲開發實戰》

2021-09-10 23:58:40 字數 1313 閱讀 2290

3.1.1

檢視cookie(chrome版):

3.4-爬取貓眼電影排行

**,崔老師的部落格有,說說我遇到的問題,和記錄

1,關於這個正規表示式匹配問題:

pattern = re.compile(

'.*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?).*?star.*?>(.*?)

.*?releasetime.*?>(.*?)

.*?integer.*?>(.*?).*?fraction.*?>(.*?).*?',

#1,匹配 排名

#.*?board-index.*?>(.*?)

# .*?匹配:(.*?)

#第乙個.*?找到name,

#第二個.*?找到a

#第三個.*?找到》

#第四個.*?找到()

#4,匹配 主演

#.*?star.*?>(.*?)

#第乙個.*?找到star

#第二個.*?找到》

#第三個.*?找到主演

#5,匹配 上映時間

#.*?releasetime.*?>(.*?)

#不再贅述

#6,匹配 評分

#.*?integer.*?>(.*?).*?fraction.*?>(.*?).*?

re.s | re.verbose)

#如果不使用re.s引數,則只在每一行內進行匹配,如果一行沒有,就換下一行重新開始,不會跨行。而使用re.s引數以後,正規表示式會將這個字串作為乙個整體,將「\n」當做乙個普通的字元加入到這個字串中,在整體中進行匹配。

2,寫入檔案:

def write_to_json(content):

with open('result.txt', 'a') as f:

print(type(json.dumps(content)))

f.write(json.dumps(content, ensure_ascii=false,).encode('utf-8'))

遇到

typeerror: write() argument must be str, not bytes
問題:檔案開啟的方式有問題。要使用二進位制形式開啟解決方法:

Python 3 網路爬蟲

python 原來還可以這樣玩 python爬蟲,破解有道翻譯介面引數 破解有道翻譯反爬蟲機制 python3網路爬蟲快速入門實戰解析 article details 78123502 python3網路爬蟲 五 python3安裝scrapy article details 60156205 py...

Python 3標準庫第三章

時間過得很快,又是一周過去了,今天感覺迷迷糊糊的,不在狀態,然後,下面開始我們的講解,還是跟大家分享一下我自己的一些想法,第一 怎麼講了,就是各位如果有懷才不遇的想法,我感覺最好不要有這種想法 第二 需要競爭對手 第三 堅持 第四 蘇格拉底的徒弟,柏拉圖 第五 講課本身,鍛鍊了我的表達能力 第六 毅...

Python3 網路爬蟲 1

準備開始寫一些python3關於爬蟲相關的東西,主要是一些簡單的網頁爬取,給身邊的同學入門看。首先我們向網路伺服器傳送get請求以獲取具體的網頁,再從網頁中讀取html內容。python view plain copy print?coding utf 8 from urllib.request i...