1 蘇寧百萬級商品爬取 思路講解 類別爬取

2021-09-19 21:06:06 字數 2559 閱讀 8840

蘇寧類別面

解析圖.png

通過圖可知,總共有n個類別,每個類別都是乙個div區塊,然後再繼續分解div區塊分析內容。我們要得到的是類別表,據圖所示我們可以分析得出類別表的結構應當樹形的。所以涉及的表應該是包含子節點和父節點的。初步設計圖如下

idpid

code

name

url主鍵

父節點編碼

名稱位址

解析圖2.png

我們可以得到解析圖2對應的 xpath為://*[@id="20089"]/div[2]/div[2] 。可是因為是通過id作為唯一key來向下找,所以我們需要先得到所有的key值。這個方法被我放棄而選用了另外一種方式。

/html/body/div[5]/div[2].首先找到如果所示xpath對應的內容

那麼如果我們想要得到下屬的內容只需要增加乙個字尾

/html/body/div[5]/div[2]/div

此時我們得到了所有模組的內容,那麼我們接下去分析

一級.png

二級+**.png

還是以「手機配件」為例。一級類別,二級類別、**類別如果所示。我們又如何得到內容,然後將其變成單元行的形式插入資料庫中呢?

解決方案如下

根據網頁內容可知,一級類別包含著二級類別,二級類別包含著**類別。所以我們可以採用如下方式。

首先獲取所有一級類別,即解析圖2.png所示內容。

一級類別a方法

迴圈當前內容

1、解析內容 增加當前a級類別實體

2、迴圈包含的二級內容,處理

3、合併實體

二級類別b方法

迴圈當前內容

1、解析內容 增加當前b級類別實體

2、迴圈包含的**級內容,處理

3、返回實體給a方法

**類別c方法

迴圈當前內容

1、解析內容 增加當前c級類別實體

2、返回實體給b方法

abc(combine)方法遍歷inita方法獲取的內容,增加a實體後將anode作為引數傳遞給initb方法。依次類推,最後得到符合要求的實體。

python爬取蘇寧商品評論

注 需要手動將json資料中的干擾資訊去除,還有最後的小括號 在 中通過正則去除干擾資訊 通過對比url發現,不同頁url的規律在於引數total之後的數字。import requests import re import json import jsonpath if name main 手動輸入...

爬取蘇寧易購資訊(物件導向)

蘇寧這些電商的 的資訊比較難爬,這此的 雖然能跑,但是資料並沒有什麼意義。所以只是單純做乙個物件導向爬蟲編碼流程的例子來看就行了 由於資料沒啥意義,我就不分析太多,就給一下 結構 import requests from lxml import etree import re import time...

蘇寧註冊一元真香商標 200多款商品1元包郵

程式設計客棧www.cppcns.com www.cppcns.com 11月9日 訊息 繼 版之後,蘇程式設計客棧寧拼購也推出了 一元真香節 活動。從11月8程式設計客棧日0點開始,包括毛巾 垃圾袋 抽紙等家居用品以及紙尿褲 兒童牙刷等200多款常用商品進行1元包郵 同時,一元真香節 還設定了 買...