taobao 爬蟲基本思路分享

2021-07-16 20:13:02 字數 1368 閱讀 4222

關於taobao 爬取 下面做乙個分享,大家一起研究

1. taobao, tmall 店鋪資料

在官網上我們可以通過 search 介面 (

2. item 介面(

又稱之為 商品介面 json) 

該介面可以快速的獲取店鋪商品資訊,獲取店鋪是第 1 步,第2步通過該 介面獲取所有店鋪商品資訊, 以下展示 2 個介面

(1. old : 

) // 通過店鋪 暱稱

(2. new : 

) // 

通過賣家 sellerid 

以上兩個介面可以很輕鬆的返回店鋪所有商品資料,這樣對收集店鋪資料就顯的十分重要,為進一步獲取 sku 資料打下關鍵的基本,他是乙個 一對多介面 (乙個介面多對資料)

3. sku 資料 (json 資料)

sku 資料即 detail 資料,在這裡可以獲取商品的所有資訊 **,庫存,銷量 ,運費等資訊,我們先看乙個 pc 端介面

1. pc (  ) // itemid 即上面獲取的 店鋪 items 所有資料 

這個介面直接訪問不行,需要新增一定的 http 頭訊息 如 referer, upgradeinsecurerequests , cachecontrol 等資訊,啟用 tls 請求即可 返回 json 資料

2. mobile 1 ( 

39783398037 )

這是乙個非常高效的介面 cache 介面,未有任何校驗直接取數 如下  

這個介面直接請求即可獲取詳細的 json 資料, 這裡包括 商品**,sku 資訊,銷量, 運費, 支付方式,店鋪,**資訊等        

3.  mobile 2 (tmall:

該介面很正常的返回頁面資料,在頁面資料中,包函完整的 sku 全部資訊,這是直接可以解析與處理的,訪問乙個手機頁面未有什麼校驗直接即可以獲取 建議新增使用者資訊檢驗與加密演算法

secret = "744e7d7e7028b817bd9f8f3c6f28a8d3";

關於動態ip 

現在通過與運營商合作可以方便的建立n多 adsl接入服務,在機房動態的獲取b段的ip池,對各電商平台進行資料爬取

總結: 通過以上介面我們就可以很方便的快速的獲取 taobao ,tmall 平台開放的一些資料,在ip足量的情況下,做到即時更新,類似 雙11 資料直播平台一樣,展現資料銷量分部等業務資料模型

keyword -> shop -> items -> sku  以這樣的爬取路徑 可以獲取

大量的實時資料, 在密演算法與請求互動認證中 注意 https, tls,自動cookies 等,自動話的爬取處理只能在一定程度上模擬使用者操作. 在 ip 被屏臨界值 蔽時 做 ip 切換。

python unittest基本思路

unittest是python中的單元測試框架,但也可以作為selenium自動化測試框架。基本思路主要分為以下三步 1.設計測試用例,注意點主要是要包含測試類和測試方法 class unittest class unittest.testcase 必須包含unittest模組下的testcase類...

快速排序基本思路

尊重原創,原文鏈結 今天看到大神寫的一篇快速排序的部落格,肅然起敬,覺得原來快速排序這麼簡單 下面進行簡單的試試 快速排序的基本思想是 1 先從數列中取出乙個數作為基準數 2 分割槽過程,將比這個數大的數全放到它的右邊,小於或等於它的數全放到它的左邊 3 再對左右區間重複第二步,直到各區間只有乙個數...

堆排序基本思路

前提 1 不建立新的空間,只在當前帶排序陣列arr中做處理 2 公升序,大頂堆。思路 1 首先建立大頂堆。建立大頂堆的過程 heapinsert 是自下而上不斷調整新加入元素的位置 2 交換首次建立好大頂堆的首尾元素 最大元素沉底,這也是為什麼利用大頂堆做公升序 同時用於重建大頂堆的arr尺寸減1 ...