python爬蟲構成指南

2021-10-11 02:10:39 字數 1617 閱讀 9698

爬蟲工作流程

1、建立爬蟲專案

2、採集資料

3、解析資料

4、儲存資料

建立爬蟲專案:

建立乙個工作目錄。在專案中新建middlewares.py檔案(./專案名/middlewares.py)

採集資料:

#! -*- encoding:utf-8 -*-

import base64

import sys

import random

py3 = sys.version_info[0]

>= 3

def base64ify(bytes_or_str):

if py3 and isinstance(bytes_or_str, str):

input_bytes = bytes_or_str.encode(

'utf8'

) else:

input_bytes = bytes_or_str

output_bytes = base64.urlsafe_b64encode(input_bytes)

if py3:

return output_bytes.decode(

'ascii'

) else:

return output_bytes

解析資料:

常用的解析方法其實無非那麼幾種,我們需要將採集的資料進行分析,從html和js裡解析出來。可以使用xpath解析

儲存資料:

可以將解析分析出來的資料通過檔案方式儲存

爬蟲採集過程:

class proxymiddleware(object):                

def process_request(self, request, spider):

# **伺服器(產品官網 www.16yun.cn)

proxyhost =

"t.16yun.cn"

proxyport =

"31111"

# **驗證資訊

# 新增驗證頭

encoded_user_pass = base64ify(proxyuser + ":" + proxypass)

request.headers[

'proxy-authorization']=

'basic ' + encoded_user_pass

# 設定ip切換頭(根據需求)

tunnel = random.randint(1,10000)

request.headers[

'proxy-tunnel'

]= str(tunnel)

爬蟲程式中設定目標**,新增**資訊,新增ua資訊,發出請求,獲取資料,分析資料,儲存資料。

Python 網路爬蟲權威指南 2 2 3 導航樹

處理子標籤和其他後代標籤 beautifulsoup 函式總是處理當前標籤的後代標籤 from urllib.request import urlopen from bs4 import beautifulsoup html urlopen bs beautifulsoup html,html.pa...

Python程式的構成

python程式有模組組成。乙個模組對應python原始檔,一般字尾名是.py 模組由語句構成。執行python程式時,按照模組中語句的順序一次執行 語句是python程式的構造單元,用於建立物件 變數賦值 呼叫函式 控制語句等 互動式環境每次只能執行一條語句 為了編寫多條語句實現複雜的邏輯,需要通...

Go 指南 練習 Web 爬蟲

在這個練習中,我們將會使用 go 的併發特性來並行化乙個 web 爬蟲。修改crawl函式來並行地抓取 url,並且保證不重複。提示 你可以用乙個 map 來快取已經獲取的 url,但是要注意 map 本身並不是併發安全的!在網路上已經能找到好幾種答案了,有的甚至用上了通道 channel 來幫助實...