爬蟲 網頁爬取方法和網頁解析方法

2021-10-11 15:26:22 字數 1098 閱讀 6957

使用基本的http請求庫便可以實現爬取,如urllib、urllib3、pycurl、hyper、requests、grab等框架,其中運用最多的是requests。

客戶端渲染,崔老師給了四個方法:

渲染:英文是render,通俗理解是通過特定方式把資訊呈現給使用者的過程。

(1)普通無加密介面:

直接抓保獲取請求,抓包工具有 charles、fiddler、mitmproxy。

(2)加密引數介面:

使用fiddler、mi***ump、xposed 等實時處理;破解加密邏輯。

(3)加密內容介面:

(4)非常規協議介面

非常規http、https協議,直接抓包沒有結果。使用 wireshark抓取所有協議包,或使用tcpdump實現tcp資料報截獲。

在爬取內容前,需要先對網頁的結構進行分析,分析需要獲取的資料儲存在**,從而選擇適合的爬取方法。

解析方法

使用的庫

正規表示式

rexpath

lmx, serapy selecto

json/xml

json, xml2dct

css selector

pyquery, cssselect

此外還有一種方法是智慧型解析,因學習深度沒有達到,此部分內容先不展開。

爬取內容的儲存方法有很多種,需要根據需求選擇儲存方式。

檔案形式

儲存載體

常用庫檔案

csv、xlwt、json、pandas、pickle、python-docx 等

資料庫mysql、mongodb、hbase 等

pymysql、pymssql、redis-py、pymongo、py2neo、thrift

搜尋引擎

solr、elasticsearch 等

elasticsearch、pysolr 等

雲儲存qiniu、upyun、boto、azure-storage、google-cloud-storage 等

這可能是你見過的最全的網路爬蟲乾貨總結!

Python 爬蟲爬取網頁

工具 python 2.7 import urllib import urllib2 defgetpage url 爬去網頁的方法 request urllib.request url 訪問網頁 reponse urllib2.urlopen request 返回網頁 return response...

python爬蟲 爬取靜態網頁

爬蟲新手剛入門,萌新練手交流作 import requests import bs4 from bs4 import beautifulsoup 偽裝瀏覽器,獲取源 def gethtml url headers 偽裝瀏覽器 response requests.get url,headers hea...

Python爬蟲爬取網頁轉碼報錯

在使用python編寫爬蟲爬取 頁面資料時,遇到編碼錯誤,具體問題如下。爬蟲 request urllib2.request url,headers headers response urllib2.urlopen request return response.read decode gbk 執行...