用Python爬取京東商品評論(2)

2021-08-14 20:45:32 字數 1215 閱讀 8608

首先開啟京東的頁面,輸入你想要查詢的某項商品的名稱,這裡用貝因美的某一款奶粉舉例

1.首先我們右擊選擇檢視網頁源**。

3.利用params引數構建**

我們可以發現

callback=fetchjson_comment98vv75454&productid=1601354&score=0&sorttype=5&page=0&pagesize=10&isshadowsku=0&fold=1這些都是可以新增在後面的引數值。那麼我們現在的任務就是如何獲取網頁的這些引數值。

我們在回到剛剛開啟的開發者選項,在headers下還有其他的內容,我們找到

可以發現這裡包含了我們剛剛所提到的所有屬性值。也就是說,只要我們能獲取這些屬性值,並將它新增到的後面,我們就可以構建**了。

那如何獲取這些屬性值呢?這就又回到了我們之前說的正規表示式模組的內容,正規表示式對文件資訊的檢索和字串的查詢很有用。但是這裡,我們可以簡化一下,並不是每個引數都需要獲取對應的值。這裡簡單說一下每個屬性的意義:

callback:是網頁響應採用的json格式,這個一般不相同也不會有太大問題,這裡可以預設它的屬性值就是這個。

所以我們利用正規表示式獲取到對應的productid後,構建乙個字典來儲存對應的鍵和值

**如下:

#要訪問網頁所需要的引數值(可以通過f12檢視)

4.將網頁內容轉化成json格式
rex=re.compile(r'\w+[(](.*)[)]')      #提取出json格式
cont = rex.findall(t)[0]        

con = json.loads(cont) #將爬取下來的內容轉化成可以被json解析的字典格式

cout = len(con['comments'])

for i in range(cout):

comm_time =

python json 爬京東商品評論

1 我用的是qq瀏覽器,右擊檢查,在network下選擇js,在搜尋框裡輸入productpagecomments 如果出不來記得f5重新整理一下 如圖 2 雙擊productpagecomments會得到以下頁面 二 找到想要的東西就要寫 啦 上 coding utf 8 importurllib...

python爬取蘇寧商品評論

注 需要手動將json資料中的干擾資訊去除,還有最後的小括號 在 中通過正則去除干擾資訊 通過對比url發現,不同頁url的規律在於引數total之後的數字。import requests import re import json import jsonpath if name main 手動輸入...

爬取京東某商品評論並存入csv

前言 找到你所要爬取物品的頁面,右鍵檢查,如圖所示 我們需要的就是紅方塊框柱的內容了。最後 我感覺可以直接上 了 import requests import json import csv from lxml import etree comment url for i in range 10 p...