爬蟲學習（二）

上篇文章我們使用了原生urllib3庫進行爬蟲，但我們對爬取到的網頁還需解碼，很不方便，我們這次就使用另乙個叫做requests的庫

使用requests庫的方式

解析網頁

正規表示式的方式解析資料

需求: 我們先訪問目標網頁我們的需求就是爬取出裡面的新聞鏈結

[外鏈轉存失敗(img-dkzxiwdn-1564032774845)(

通過審查元素我們發現新聞鏈結都有一些共性，

[外鏈轉存失敗(img-mq***8bl-1564032774846)(

找到這些共性就好說了，我們先構建正規表示式

(.*?)

關於這個正規表示式簡單的說下

所以在看上面的正規表示式

現在用一些正則工具測下我們的正規表示式

我們通過編寫python程式進行匹配

# @file:    coed03.py
# @author: lengwen
# @time: 2019-07-25 10:22
# @desc: 正規表示式的方式解析資料
import requests
# 匯入re正則庫
import re
url =
''resp = requests.get(url)
# 構建正規表示式字串 字串前面的r代表不轉義字串裡的內容
pattern_str = r'(.*?)'
# 轉換為正規表示式
pattern = re.
compile
(pattern_str)
# 查詢所以匹配結果，我們需要匹配的內容在正規表示式中的()中
news_datas = re.findall(pattern, resp.text)
print
(len
(news_datas)
)for data in news_datas:
print
(data)

我們看下結果，一條連線，乙個標題，我們想要的結果出來了

[外鏈轉存失敗(img-4vmpympl-1564032774848)(

我們正則方式的解析至此已經完成

python 爬蟲學習二

是一種按照一定的規則，自動地抓取資訊的程式或者指令碼。爬蟲是通過網頁的鏈結位址來尋找網頁，從某乙個頁面開始，讀取網頁的內容，找到在網頁中的其它鏈結位址，然後通過這些鏈結位址尋找下乙個網頁，這樣一直迴圈下去，直到把這個所有的網頁都抓取完為止。基本流程 1 發起請求通過http庫向目標站點傳送r...

Python 爬蟲學習（二）

這一篇我們來學習如何對多頁的網路進行資訊爬取。在平時網頁瀏覽時不少看見許多網頁是有多頁的，像這樣當我們不斷換頁時，我們會發現什麼呢？沒錯，看破真相的是乙個外表看似小孩，智慧型卻過於常人的.第三頁第四頁第五頁 def get info url,data none wb data requests...

Python網路爬蟲學習（二）

十五.京東商品頁面的爬取 import requests r requests.get r.status code r.encoding r.text 1000 十六.亞馬遜商品頁面的爬取 import requests def main url try kv r requests.get url,...

爬蟲學習（二）

python 爬蟲學習二

Python 爬蟲學習（二）

Python網路爬蟲學習（二）

相關推薦