python3爬取豆瓣電影Top 250

2021-09-18 07:38:44 字數 1817 閱讀 6434

爬取豆瓣電影top 250(、排名、名字、作者、評語)

(1)匯入包

import requests

from bs4 import beautifulsoup

import re

(2)傳送請求

headers=

res=requests.get(url,headers=headers)

print(res.status_code)

新增headers請求頭模擬使用者

並列印狀態碼

(3)獲取頁面

(4)解析頁面

可以發現所有的資訊都在類名為item的div標籤中

通過beautifulsoup找到所有的div

再便利得來的div,使用正則匹配處需要的資訊

(5)資料儲存

這次資料無用,所以沒有儲存。

(6)原始碼

#-*- coding:utf-8 -*-

# author:air

# software: pycharm

#學習交流qq群:916696436

import requests

from bs4 import beautifulsoup

import re

def gethtml(url):

headers=

res=requests.get(url,headers=headers)

print(res.status_code)

soup=beautifulsoup(res.text,'html.parser')

data=soup.find_all('div',attrs=)

for i in data:

i=str(i)

infomatin_list=

#pic_pertern=re.compile(r'.*?',re.s)

pic=re.findall(pic_pertern,i)

#排名num_pertern=re.compile(r'(.*?)',re.s)

num=re.findall(num_pertern,i)

#名字name_pertern=re.compile(r'(.*?)',re.s)

name=re.findall(name_pertern,i)

#作者director_pertern=re.compile(r'(.*?)

',re.s)

director=re.findall(director_pertern,i)

#名言quote_pertern=re.compile(r'(.*?)')

quote=re.findall(quote_pertern,i)

if len(quote)>0:

print(infomatin_list)

for i in range(0,10):

url=''+str(i*25)

gethtml(url)

python3爬取電影資料

爬取電影票房資料,用於統計建模分析。目標 為電影票房資料庫 基本的爬取靜態 的技術,模擬登陸使用的是最簡單的cookies。這種模擬登陸的方式雖然簡單但有很大的侷限性,時效性比較短,也許兩三天後就失效了,或者網頁改版一點也會導致失效。最好的方式還是找到登陸頁面,獲取需要提交的資料和提交方式,模擬我們...

豆瓣熱門電影爬取

import requests import json import csv defgetonepagedata page start url headers params response requests.get start url,headers headers,params params i...

Python爬蟲 爬取豆瓣電影(二)

檢視上乙個專案,請看 上乙個專案中獲取到了一定數量的電影url資訊,這次來獲取單個電影的電影詳情。對傳遞的url返回乙個名為soup的beautifulsoup物件 defget url html soup url header request body.get header proxies req...