利用正則爬取貓眼電影

2021-09-28 20:03:37 字數 1378 閱讀 8652

爬取貓眼電影

import json

import requests

from requests.exceptions import requestexception

import re

def get_one_page(url):#獲取乙個頁面的資訊

try:

# proxies=get_random_ip(proxies)

response=requests.get(url,headers=kv)

response.encoding='utf-8'

if response.status_code==200:

return response.text

return none

except requestexception:

return none

def parse_one_page(html):#解析頁面資訊,每個匹配元素後面必須要加結束符號

pattern=re.compile('.*?board-index.*?>(\d+).*?data-src="(.*?)".*?name">(.*?).*?star">(.*?)

.*?releasetime">(.*?)

' +'.*?integer">(.*?).*?fraction">(.*?).*?',re.s)#re.s使語句可以匹配換行符

items=re.findall(pattern,html)

for item in items:

yield

def write_to_file(content):#寫入檔案

with open('f:','a',encoding='utf-8')as f:

f.write(json.dumps(content,ensure_ascii=false)+'\n')

f.close()

def main(offset):

url=''+str(offset)

html=get_one_page(url)

for item in parse_one_page(html):

print(item)

write_to_file(item)

if __name__ == '__main__':

for i in range(10):

main(i*10)

#為了解決儲存到檔案後亂碼的問題,在39和40行要加乙個encoding和ensure_ascii

開始爬取的時候不成功,以為是ip出問題了,最後發現是改個頭檔案就行了

爬取貓眼電影

有乙份工作需要我列出兩個電影院的每天電影排期資訊,我不想每次都要去貓眼上覆制貼上。所以做了個爬蟲 功能 能夠知道每天的電影排期資訊 使用限制 只能在當天使用,不能在前一晚上使用,後面我會再考慮修改 coding utf 8 import requests import re from bs4 imp...

Python爬取貓眼電影

不多說,直接上 import requests import re import random import pymysql import time 連線資料庫 db pymysql.connect host localhost port 3306,user root passwd a db pyt...

貓眼電影影評爬取

電影的影評介面如下 這個可以在網上搜到,也可以自己抓包分析 這裡簡單的分析一下引數的含義 1218029 貓眼電影的id 這裡就是 少年的你 的電影id了 offset 偏移,貌似是依次增加15 我們可以每次增加offset來進行爬取,即讓offset每次增加15。我們通過這種方式來構造url,傳送...