爬蟲學習(二)

2021-09-25 13:43:38 字數 1276 閱讀 5502

上篇文章我們使用了原生urllib3庫進行爬蟲,但我們對爬取到的網頁還需解碼,很不方便,我們這次就使用另乙個叫做requests的庫

使用requests庫的方式

解析網頁

正規表示式的方式解析資料

需求: 我們先訪問目標網頁我們的需求就是爬取出裡面的新聞鏈結

[外鏈轉存失敗(img-dkzxiwdn-1564032774845)(

通過審查元素我們發現新聞鏈結都有一些共性,

[外鏈轉存失敗(img-mq***8bl-1564032774846)(

找到這些共性就好說了,我們先構建正規表示式

(.*?)

關於這個正規表示式簡單的說下

所以在看上面的正規表示式

現在用一些正則工具測下我們的正規表示式

我們通過編寫python程式進行匹配

# @file:    coed03.py

# @author: lengwen

# @time: 2019-07-25 10:22

# @desc: 正規表示式的方式解析資料

import requests

# 匯入re正則庫

import re

url =

''resp = requests.get(url)

# 構建正規表示式字串 字串前面的r代表不轉義字串裡的內容

pattern_str = r'(.*?)'

# 轉換為正規表示式

pattern = re.

compile

(pattern_str)

# 查詢所以匹配結果,我們需要匹配的內容在正規表示式中的()中

news_datas = re.findall(pattern, resp.text)

print

(len

(news_datas)

)for data in news_datas:

print

(data)

我們看下結果,一條連線,乙個標題 ,我們想要的結果出來了

[外鏈轉存失敗(img-4vmpympl-1564032774848)(

我們正則方式的解析至此已經完成

python 爬蟲學習二

是一種按照一定的規則,自動地抓取 資訊的程式或者指令碼。爬蟲是通過網頁的鏈結位址來尋找網頁,從 某乙個頁面開始,讀取網頁的內容,找到在網頁中的其它鏈結位址,然後通過這些鏈結位址尋找下乙個網頁,這樣一直迴圈下去,直到把這個 所有的網頁都抓取完為止。基本流程 1 發起請求 通過http庫向目標站點傳送r...

Python 爬蟲學習(二)

這一篇我們來學習如何對多頁的網路進行資訊爬取。在平時網頁瀏覽時不少看見許多網頁是有多頁的,像這樣 當我們不斷換頁時,我們會發現什麼呢?沒錯,看破真相的是乙個外表看似小孩,智慧型卻過於常人的.第三頁 第四頁 第五頁 def get info url,data none wb data requests...

Python網路爬蟲學習(二)

十五.京東商品頁面的爬取 import requests r requests.get r.status code r.encoding r.text 1000 十六.亞馬遜商品頁面的爬取 import requests def main url try kv r requests.get url,...