抓取貓眼電影前100

2022-08-28 19:42:09 字數 1355 閱讀 5507

import json

import requests

import re

import time

from requests.exceptions import requestexception

def get_one_page(url):

try:

headers = 

response = requests.get(url, headers=headers)

if response.status_code == 200:

print(response.text)

return response.text  # 使得get_one_page()函式輸出是乙個文字

return none

except requestexception:

return none

def parse_one_page(html):

pattern = re.compile(

'.*?board-index.*?>(.*?).*?name.*?a.*?>(.*?).*?star.*?>(.*?)

.*?releasetime.*?>(.*?)

.*?'

'integer.*?>(.*?).*?fraction.*?>(.*?).*?',

re.s)  # 正規表示式獲取需要儲存的東西編譯成正規表示式物件

items = re.findall(pattern, html)  # 遍歷html檔案中的所有pattern正規表示式物件

for item in items:  # 把提取的物件裝入字典中

yield 

def write_to_file(content):  # 把檔案寫入並儲存在result.tx + '\n')

with open('result.txt', 'a', encoding='utf-8') as f:

f.write(json.dumps(content, ensure_ascii=false) + '\n')

def main(offset):  # 遍歷top100的電影的所有**

url = '' + str(offset)  # 接收乙個偏移量offset

html = get_one_page(url)

for item in parse_one_page(html):

print(item)

write_to_file(item)

if __name__ == '__main__':  # 建立乙個偏移量offset

for i in range(10):

main(offset=i * 10)

time.sleep(1)

Python實戰 抓取貓眼電影TOP100

話不多說,直接上 coding utf 8 import requests from requests import requestexception import re import json from multiprocessing import pool def get one page ur...

多程序抓取貓眼電影top100

import json from multiprocessing import pool import requests from requests.exceptions import requestexception import re 建構函式,輸入乙個url 傳送請求後返回該 的響應結果 de...

抓取貓眼電影排行

首先將第乙個頁面抓取下來 import requests 抓取乙個 def get one page url headers response requests.get url,headers headers 判斷響應的狀態碼 if response.status code 200 return r...