BeautifulSoup爬取豆瓣電影Top250

2021-10-12 14:35:48 字數 2253 閱讀 9281

任務要求

爬取豆瓣電影top250的電影名、評分、短評、評分人數等資訊

通過部落格對beautifulsoup4的簡單介紹,現在開始實戰啦,沒有看過的,可以先看看

推薦閱讀:

使用xpath爬取資料

jupyter notebook使用

beautifulsoup爬取豆瓣電影top250

一篇文章帶你掌握requests模組

python網路爬蟲基礎–beautifulsoup

直接上**

# -*- coding: utf-8 -*-

"""created on mon dec 22 12:03:06 2020

@author: kun

"""import requests

from bs4 import beautifulsoup

import pandas as pd

from fake_useragent import useragent

ua = useragent(

)headers =

defget_movies()

: movie_list =

for i in

range(0

,10):

link =

''+str

(i *25)

r = requests.get(link, headers=headers, timeout=10)

soup = beautifulsoup(r.text,

"lxml"

) div_list = soup.find_all(

'div'

, class_=

'info'

)for each in div_list:

title = each.find(

'div'

, class_=

'hd'

).a.span.text.strip(

) info = each.find(

'div'

, class_=

'bd'

).p.text.strip(

) info = info.replace(

"\n"

," "

).replace(

"\xa0"

," "

) info =

' '.join(info.split())

rating = each.find(

'span'

, class_=

'rating_num'

).text.strip(

) num_rating = each.find(

'div'

, class_=

'star'

).contents[7]

.text.strip(

)try

: quote = each.find(

'span'

, class_=

'inq'

).text.strip(

)except

: quote =

""

[title, info, rating, num_rating, quote]

) df = pd.dataframe(movie_list,columns=

['電影名稱'

,'資訊'

,'評分'

,'評價人數'

,'短評'

],index=

none

)

df.to_csv(

"douban.csv"

)return movie_list

movies = get_movies(

)print

(movies)

到這裡就結束了,如果對你有幫助你,歡迎點讚關注,你的點讚對我很重要

利用beautiful soup爬取歷史天氣資料

利用beautiful soup爬取歷史天氣資料 本文將會涉及requests.get 返回結果為404時,採用模擬瀏覽器訪問的模式。以及當遇到幾個相同的標籤時的處理辦法。由於本人還是個小白,故可能有不好的地方 參考了 以及 文章爬取的 為 如下 目標 爬取2019年香洲的天氣資料,包括最高氣溫,最...

BeautifulSoup技術爬取豆瓣TOP250

1.環境 vs2019 2.首先安裝re,beautifulsoup,codecs,requests庫,可以用 pip安裝 功能 將top250的電影名,評分,評價人數,鏈結,影評獲取下來並生成.html檔案效果如圖 先展示爬蟲函式 def pachong url cc requests.get u...

學習日記 使用BeautifulSoup爬取小說

半個月前入坑了python,近幾天看到csdn上有一些關於美麗的湯 beautifulsoup 的介紹和使用方法,於是自己也試著寫了乙個爬蟲。小白的學習日記,若有不當之處,歡迎大神們指點!使用python版本 python3.8 隨便在網上搜了個 試著爬下來。鏈結 檢視網頁的源 發現文章內容都是p標...