實現爬蟲的一般思路

2022-05-04 18:48:09 字數 1160 閱讀 9225

### 實現爬蟲的套路

#### 一、準備url

- 準備start_url

- url位址規律不明顯,總數不確定

- xpath

- 尋找url位址,部分引數在當前的響應中(比如,當前頁碼數和總的頁碼數在當前響應中)

- 準備url_list

- 頁碼總數明確

- url位址規律明顯

#### 二、傳送請求,獲取響應

- 新增隨機的user-agent,反反爬蟲

- 新增隨機的**ip,反反爬蟲

- 在對方判斷出我們是爬蟲之後,應該新增更多的headers欄位,包括cookie

- cookie的處理可以使用session來解決(requests的session)

- 準備一堆能用的cookie,組成cookie池

- 如果不登入

- 準備剛開始能成功請求對方**的cookie,即接收對方**設定在response的cookie

- 下一次請求的時候,使用之前的列表的cookie來請求

- 如果登入

- 準備多個賬號

- 使用程式獲取每乙個賬號的cookie

- 之後請求登入之後才能訪問的**,隨機的選擇cookie

#### 三、提取資料

- 確定資料的位置

- 如果資料在當前的url位址中

- 提取的是列表頁的資料

1. 直接請求列表頁中的url位址,不用進入詳情頁

- 提取的是詳情頁的資料

1. 確定url位址

2. 傳送請求

3. 提取資料

4. 返回

- 如果資料不在當前的url位址中

- 在其它的響應中,尋找資料的位置

1. 從network中從上往下找

2. 使用chrome中的過濾,選擇除了js、css、img之外的按鈕

3. 使用chrome中的search all file,最好搜尋數字和英文

- 資料的提取

- re:提取max_time,price,html中的字串等

- xpath:從html中提取整塊的資料,先分組,之後每一組再提取

- json

#### 儲存

- 儲存在本地:json、text、csv

- 儲存在資料庫

Python小爬蟲的一般思路

小爬蟲一般步驟 第三方包 urllib 系統自帶,連線網路,urlopne,request 準備資料 headres 請求頭 封裝請求 request request 請求頭 開啟連線 conn urlopen request 判斷是否連線成功 if conn.code 200 data conn....

爬蟲的一般步驟

希望下次寫 的時候可以嚴格按照這個步驟進行除錯,寫可維護的 1.建立乙個專案 scrapy startproject demo 1.根據需要設計字段 items.py 2.資料提取 spiders.py 1 針對沒有ban且沒有動態資料的 無需設定相應得策略 設定useragentmiddlewar...

軟體除錯的一般思路

解決軟體的bug就像警察破案一樣。警察在掌握了案件發生的時間地點和相關人物後進行分析推理,採訪相關人員,排除嫌疑人,最終找到 同樣的,軟體開發人員在接到bug時,也是分析bug發生的背景,然後在運用各種方法來找出問題的原因。並不是所有的bug都能一眼看出問題發生在哪個地方。雖然bug發生的原因千差萬...