python抓取貓眼電影列表

分析url分頁規則:

其中offset引數值為0到90

用到的庫:

pyquery：html解析器,語法類似jquery

fake_useragent;用於偽造頭部瀏覽器資訊,防爬蟲遮蔽

相關**:

import
requests
from requests.exceptions import
requestexception
from pyquery import
pyquery as pq
from fake_useragent import
useragent
from multiprocessing import
pool
import
json
defgethtml(offset):
try:
ua =useragent()
#防爬蟲機制,加入頭部資訊
headerinfo=
respsonse= requests.get("
"+str(offset), headers=headerinfo)
if respsonse.status_code==200:
return
respsonse.text
return
none
except
requestexception as ex :
print
(ex)
return
none
defgetcontent(offset):
result=gethtml(offset)
p=pq(result)
for item in p("
").items():
print(item('
.name
').text())
write_to_file()
##寫入到檔案中
defwrite_to_file(content):
with open(
'maoyan.txt
','a
',encoding='
utf-8
') as f:
f.write(json.dumps(content,ensure_ascii=false)+"\n"
) f.close()
if__name__ == '
__main__':
#開啟執行緒池，使用多執行緒抓取
p=pool()
p.map(getcontent,[i*10 for i in range(0,10)])

抓取貓眼電影排行

首先將第乙個頁面抓取下來 import requests 抓取乙個 def get one page url headers response requests.get url,headers headers 判斷響應的狀態碼 if response.status code 200 return r...

抓取貓眼電影排行

今天學習 python3網路爬蟲第三章時，在章節尾部的爬取貓眼電影排行練習中成功實現，但這一部分有點不明白，先記錄下來 def get one page url try headers response requests.get url,headers headers if response.st...

抓取貓眼電影排行

抓取貓眼電影排行 1.抓取分析需要抓取的目標url為開啟之後便可以檢視到電影的排行，如下圖可以發現第二頁的url為第三頁的url為以此類推。2.抓取第一頁定義乙個函式用於抓取乙個頁面，函式的引數就是url，將我們要抓取頁面的url傳給函式，返回的結果就是伺服器端的響應。import requ...

python抓取貓眼電影列表

抓取貓眼電影排行

抓取貓眼電影排行

抓取貓眼電影排行

相關推薦