爬取影評來分析電影《鷹獵長空》評論是如何的

2021-10-12 06:08:39 字數 827 閱讀 5068

資料獲取

貓眼電影是簡單的動態網頁,資料格式為json,通過解析介面的方式即可輕鬆獲取。

def parse_page(html):

try:

data = json.loads(html)['cmts'] # 將str轉換為json

#print(data)

comments =

for item in data:

comment =

return comments

except exception as e:

pass

資料清洗

讀取影評資料

import pandas as pd

import numpy as np

data=

with open('comments.txt', 'r',encoding='utf-8-sig') as f_input:

for line in f_input:

data

轉為dataframe並新增列名

df = pd.dataframe(data).iloc[:, 0:6]
刪除重覆記錄和缺失值

df = df.drop_duplicates()

df = df.dropna()

預覽並儲存

df.sample(5)

df.to_csv("八佰.csv",index=false,encoding="utf_8_sig")

貓眼電影影評爬取

電影的影評介面如下 這個可以在網上搜到,也可以自己抓包分析 這裡簡單的分析一下引數的含義 1218029 貓眼電影的id 這裡就是 少年的你 的電影id了 offset 偏移,貌似是依次增加15 我們可以每次增加offset來進行爬取,即讓offset每次增加15。我們通過這種方式來構造url,傳送...

爬b站(bilibili)電影《鷹獵長空》短評

需要用到的庫有 requests re pandas selenium lxml。還要準備chromedriver。安裝教程 匯入需要的庫 import requests import re import pandas as pd from pandas.core.frame import data...

python爬蟲之爬取時光網電影影評

最近看了美國往事這部電影。於是就想到最近剛學的爬蟲,就像試試把時光網影評爬取下來,並按照影評的名字存放在本地資料夾。在長影評頁面可以看到每篇文章的標題對應都有乙個blogid,並且這個id對應該影評正文頁的字尾 那麼我們便可以通過這個id來實現獲取當前頁所有影評的位址 首先定義乙個方法 id 儲存電...