python抓取貓眼電影列表

2022-08-15 13:57:12 字數 1358 閱讀 1445

分析url分頁規則:

其中offset引數值為0到90

用到的庫:

pyquery:html解析器,語法類似jquery
fake_useragent;用於偽造頭部瀏覽器資訊,防爬蟲遮蔽

相關**:

import

requests

from requests.exceptions import

requestexception

from pyquery import

pyquery as pq

from fake_useragent import

useragent

from multiprocessing import

pool

import

json

defgethtml(offset):

try:

ua =useragent()

#防爬蟲機制,加入頭部資訊

headerinfo=

respsonse= requests.get("

"+str(offset), headers=headerinfo)

if respsonse.status_code==200:

return

respsonse.text

return

none

except

requestexception as ex :

print

(ex)

return

none

defgetcontent(offset):

result=gethtml(offset)

p=pq(result)

for item in p("

").items():

print(item('

.name

').text())

write_to_file()

##寫入到檔案中

defwrite_to_file(content):

with open(

'maoyan.txt

','a

',encoding='

utf-8

') as f:

f.write(json.dumps(content,ensure_ascii=false)+"\n"

) f.close()

if__name__ == '

__main__':

#開啟執行緒池,使用多執行緒抓取

p=pool()

p.map(getcontent,[i*10 for i in range(0,10)])

抓取貓眼電影排行

首先將第乙個頁面抓取下來 import requests 抓取乙個 def get one page url headers response requests.get url,headers headers 判斷響應的狀態碼 if response.status code 200 return r...

抓取貓眼電影排行

今天學習 python3網路爬蟲 第三章時,在章節尾部的爬取貓眼電影排行練習中成功實現,但這一部分有點不明白,先記錄下來 def get one page url try headers response requests.get url,headers headers if response.st...

抓取貓眼電影排行

抓取貓眼電影排行 1.抓取分析 需要抓取的目標url為 開啟之後便可以檢視到電影的排行,如下圖 可以發現第二頁的url為第三頁的url為以此類推。2.抓取第一頁 定義乙個函式用於抓取乙個頁面,函式的引數就是url,將我們要抓取頁面的url傳給函式,返回的結果就是伺服器端的響應。import requ...