python爬取蘇寧商品評論

2021-10-20 19:54:09 字數 1267 閱讀 4837

注:需要手動將json資料中的干擾資訊去除,(還有最後的小括號)。在**中通過正則去除干擾資訊

通過對比url發現,不同頁url的規律在於引數total之後的數字

import requests

import re

import json

import jsonpath

if __name__ == '__main__':

# 手動輸入要爬取的頁數

pages = int(input('請輸入要爬取的頁數:'))

# 建立for迴圈進行翻頁操作

for i in range(pages):

page = i+1

# 確認目標的url

url_ = f''

# 建立請求頭引數

headers =

# 傳送請求,獲取相應

response = requests.get(url_,headers=headers)

# 通過正則去除多餘的資訊

str_data = re.findall(r'reviewlist\((.*?)\)',response.text)[0]

# 將資料轉換為python 資料

py_data = json.loads(str_data)

id_list = jsonpath.jsonpath(py_data,'$..nickname')

comment_list = jsonpath.jsonpath(py_data,'$.commodityreviews[*].content')

for i in range(len(id_list)):

dict_ = {}

dict_[id_list[i]] = comment_list[i]

json_data = json.dumps(dict_,ensure_ascii=false)+',\n'

f.write(json_data)

爬取了三頁

爬取亞馬遜評論 亞馬遜商品評論分析

1 原始資料 2 資料清洗 由於資料量較小且清洗過程簡單,直接利用excel進行處理。最終得到的negative txt包含1013條資料,positive txt包含3198條資料。二 模型構建 1 分詞 1.1 讀取停用詞 stopwords def stopword filename glob...

用Python爬取京東商品評論(2)

首先開啟京東的頁面,輸入你想要查詢的某項商品的名稱,這裡用貝因美的某一款奶粉舉例 1.首先我們右擊選擇檢視網頁源 3.利用params引數構建 我們可以發現 callback fetchjson comment98vv75454 productid 1601354 score 0 sorttype ...

python json 爬京東商品評論

1 我用的是qq瀏覽器,右擊檢查,在network下選擇js,在搜尋框裡輸入productpagecomments 如果出不來記得f5重新整理一下 如圖 2 雙擊productpagecomments會得到以下頁面 二 找到想要的東西就要寫 啦 上 coding utf 8 importurllib...