Python小爬蟲的一般思路

小爬蟲一般步驟:
第三方包
urllib:系統自帶,連線網路,urlopne,request
準備資料
**:headres(請求頭):
封裝請求
request = request(**,請求頭)
開啟連線
conn = urlopen(request)
判斷是否連線成功
if conn.code == 200:
data = conn.read()
from urllib.request import urlretrieve
urlretrieve("檔案位址","儲存位址")
(2)處理資料
解壓(可選項)
編碼:網頁編碼格式,meta charset="編碼格式"
data.decode(encoding=編碼格式)
轉換資料為html格式
lxml:etree
html = etree.html(data)
獲取需要的資料
# //:前是什麼東西我們都不考慮
正確取出資訊的方式為"//標籤名[@屬性名='屬性值']/標籤名[@屬性名='屬性值']"
# 獲取屬性:@屬性名
# 如果同一級出現多個標籤 例:# 正確進入下一級的方式為"//div[@id='pic-meinv']/a/img"
獲取內容:text()
內容列表 = html.xpath("")
迴圈遍歷內容列表
內容字串方法進行處理

實現爬蟲的一般思路

實現爬蟲的套路一準備url 準備start url url位址規律不明顯，總數不確定 xpath 尋找url位址，部分引數在當前的響應中比如，當前頁碼數和總的頁碼數在當前響應中準備url list 頁碼總數明確 url位址規律明顯二傳送請求，獲取響應新增隨機的user agent，反反...

python爬蟲一般格式

伴隨bs4安裝的還有 lxml 模組需要了解python正規表示式主要了解re.findall函式的使用。簡單示例一般爬蟲的格式如下 import re import time import random import requests from bs4 import beautifulsou...

爬蟲的一般步驟

希望下次寫的時候可以嚴格按照這個步驟進行除錯，寫可維護的 1.建立乙個專案 scrapy startproject demo 1.根據需要設計字段 items.py 2.資料提取 spiders.py 1 針對沒有ban且沒有動態資料的無需設定相應得策略設定useragentmiddlewar...

Python小爬蟲的一般思路

實現爬蟲的一般思路

python爬蟲一般格式

爬蟲的一般步驟

相關推薦