python爬取豆瓣網頁短評實戰!

2021-08-17 05:52:05 字數 1029 閱讀 7738

首先我們開啟我的父親母親的網頁介面:鏈結(可以觀察到如下介面以及讀者對本書的評價:

接下來我們直接附上**:

# 書名:我的父親母親

# 出版社: 南海出版公司

# 原作名: alfred and emily

# 譯者: 匡詠梅

# 出版年: 2013-1

# 頁數: 238

# 定價: 29.50元

# 裝幀: 精裝

# 叢書: 新經典文庫·萊辛作品

# isbn: 9787544263863

import requests

from lxml import etree

import pandas as pd

#通過觀察的url翻頁的規律,使用for迴圈得到10個鏈結,儲存到urls列表中

urls=[''.format(str(i)) for i in range(1, 11, 1)]

comments = #初始化用於儲存短評的列表

for url in urls: #使用for迴圈分別獲取每個頁面的資料,儲存到comments列表

r = requests.get(url).text

s = etree.html(r)

file = s.xpath('//div[@class="comment"]/p/text()')

comments = comments + file

df = pd.dataframe(comments) #把comments列表轉換為pandas dataframe

df.to_excel('190.xlsx') #使用pandas把資料儲存到excel**

結果如下:

爬取少年的你的豆瓣短評

首先這是目標網頁,然後為了簡單決定用最快的提取辦法,我一直覺得爬蟲不一定需要多複雜,往往簡單的幾行 就能完成我們的需求。決定用requests爬取10頁,然後正則提取,資料存到csv中。直接上 import requests import pandas as pd import re defget ...

爬取《小王子》豆瓣短評前5頁的短評資料

思考一下,以下 還有什麼更加簡潔的寫法?import requests from lxml import etree import pandas as pd urls format str i for i in range 1,6 通過觀察的url翻頁規律,使用for迴圈得到5個鏈結,儲存到urls...

python爬取豆瓣影評

看的別人的 爬取某部影片的影評 沒有模擬登入只能爬6頁 encoding utf 8 import requests from bs4 import beautifulsoup import re import random import io import sys import time 使用se...