Python小爬蟲的一般思路

2021-10-01 22:35:01 字數 804 閱讀 9225

小爬蟲一般步驟:

第三方包

urllib:系統自帶,連線網路,urlopne,request

準備資料

**:headres(請求頭):

封裝請求

request = request(**,請求頭)

開啟連線

conn = urlopen(request)

判斷是否連線成功

if conn.code == 200:

data = conn.read()

from urllib.request import urlretrieve

urlretrieve("檔案位址","儲存位址")

(2)處理資料

解壓(可選項)

編碼:網頁編碼格式,meta charset="編碼格式"

data.decode(encoding=編碼格式)

轉換資料為html格式

lxml:etree

html = etree.html(data)

獲取需要的資料

# //:前是什麼東西我們都不考慮

正確取出資訊的方式為"//標籤名[@屬性名='屬性值']/標籤名[@屬性名='屬性值']"

# 獲取屬性:@屬性名

# 如果同一級出現多個標籤 例:# 正確進入下一級的方式為"//div[@id='pic-meinv']/a/img"

獲取內容:text()

內容列表 = html.xpath("")

迴圈遍歷內容列表

內容字串方法進行處理

實現爬蟲的一般思路

實現爬蟲的套路 一 準備url 準備start url url位址規律不明顯,總數不確定 xpath 尋找url位址,部分引數在當前的響應中 比如,當前頁碼數和總的頁碼數在當前響應中 準備url list 頁碼總數明確 url位址規律明顯 二 傳送請求,獲取響應 新增隨機的user agent,反反...

python爬蟲一般格式

伴隨bs4安裝的還有 lxml 模組 需要了解python正規表示式 主要了解re.findall函式的使用。簡單示例 一般爬蟲的格式如下 import re import time import random import requests from bs4 import beautifulsou...

爬蟲的一般步驟

希望下次寫 的時候可以嚴格按照這個步驟進行除錯,寫可維護的 1.建立乙個專案 scrapy startproject demo 1.根據需要設計字段 items.py 2.資料提取 spiders.py 1 針對沒有ban且沒有動態資料的 無需設定相應得策略 設定useragentmiddlewar...