貓眼電影通用模組

2021-10-04 19:57:42 字數 1730 閱讀 5303

寫在前面

注意headers的更新,因機子而異

**

import requests

import re

# 火狐請求頭 mozilla/5.0 (windows nt 10.0; win64; x64; rv:74.0) gecko/20100101 firefox/74.0

defmain()

:#可根據需要更改url

request_url =

''headers =

; mojo-trace-id=8; hm_lpvt_703e94591e87be68cc8da0da7cbd0be2=1586221098; _lxsdk_s=171521e0bc0-cff-1e-022%7c%7c5'

} response = requests.get(request_url, headers=headers)

.text

dl_pattern = re.

compile

, re.s)

dd_pattern = re.

compile

(r'.*?'

, re.s)

dd_content = dd_pattern.findall(response)

for dd in dd_content:

m_dict =

title = re.

compile

(r'title="(.*?)" class="image-link"'

, re.s)

m_title = title.findall(dd)

actor = re.

compile

(r'主演:(.*?)

', re.s)

m_actor = actor.findall(dd)

date = re.

compile

, re.s)

m_date = date.findall(dd)

m_dict[

'電影名'

]= m_title

m_dict[

'演員'

]= m_actor

m_dict[

'上映日期'

]= m_date

defdisplay()

:for m in movies:

print

('電影名:'

+str

(m['電影名'][

0]))

print

('主演:'

+str

(m['演員'][

0]))

if m[

'上映日期']is

notnone

:print

('上映日期:'

+str

(m['上映日期'][

0]))

print

('*'*40

)if __name__ ==

'__main__'

: movies =

main(

) display(

)

效果截圖

本次編寫**的缺點

對於介面上為空的內容沒有進行友好的處理,所以本篇**針對key-value都不為空的電影

網頁截圖

抓取貓眼電影排行

首先將第乙個頁面抓取下來 import requests 抓取乙個 def get one page url headers response requests.get url,headers headers 判斷響應的狀態碼 if response.status code 200 return r...

抓取貓眼電影排行

今天學習 python3網路爬蟲 第三章時,在章節尾部的爬取貓眼電影排行練習中成功實現,但這一部分有點不明白,先記錄下來 def get one page url try headers response requests.get url,headers headers if response.st...

爬取貓眼電影

有乙份工作需要我列出兩個電影院的每天電影排期資訊,我不想每次都要去貓眼上覆制貼上。所以做了個爬蟲 功能 能夠知道每天的電影排期資訊 使用限制 只能在當天使用,不能在前一晚上使用,後面我會再考慮修改 coding utf 8 import requests import re from bs4 imp...