python 爬取貓眼電影排行資料

2021-09-10 02:49:48 字數 1184 閱讀 8618

爬取的是電影的名稱 排名 演員 上映時間 評分 等(話不多說看**就懂了)。

用的是正規表示式進行匹配,實現的是乙個最基本的對網頁的爬取功能。

import requests

import re

import json

import time

def get_one_page(url):

try:

response = requests.get(url,headers = headers)

if(response.status_code ==200):

return response.text

return none

except:

return none

def pause_one_page(html):

pattern = re.compile( '.*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?).*?star.*?>(.*?)

.*?releasetime.*?>(.*?)

' '.*?integer.*?>(.*?).*?fraction.*?>(.*?).*?', re.s)

items = re.findall(pattern, html)

for item in items:

yield

def write_to_file(content):

with open('result.txt', 'a', encoding='utf-8') as f:

f.write(json.dumps(content,ensure_ascii = false)+'\n')

def main(offset):

url ='' + str(offset)

html = get_one_page(url)

for item in pause_one_page(html):

print(item)

write_to_file(item)

if __name__ == '__main__':

for i in range(10):

main(offset= i * 10)

time.sleep(1)

python爬取貓眼電影排行

完整的 如下在這裡 閒著沒事,把解析html中的正則方法改用了xpath與beautifulsoup,只能說各有各的優點吧。正則的話,提取資訊可以連貫,一次性提取出所有需要的資訊,當然前提是你的正則式子沒有寫錯,所以說正則寫起來相比xpath與beautifulsoup來說要複雜一下,提取出錯後,除...

爬取貓眼電影排行100電影

import json import requests from requests.exceptions import requestexception import re import time 獲取單頁的內容 def get one page url try response requests....

爬取貓眼電影排行榜

匯入我們需要的模組 import reimport requests 一 獲取網頁內容 1 宣告目標url,就是爬取的 位址 base url 2 模仿瀏覽器 headers 3 發起請求 response requests.get base url,headers headers 4 接收響應的資...