初學Python爬蟲之簡單爬取小說的網頁鏈結及目錄

學習python的同學想必都知道，python的庫有很多，今天我們就來運用urllib.request庫和re庫來寫乙個簡單的爬蟲**

複製**

我們要寫乙個爬蟲**首先要有乙個初步的認識，那就我們要爬取的內容是什麼，以及該如何爬取。爬蟲是用來抓取資訊的一段程式或**，那麼該如何準確的找到資訊或者說如何把需要的資訊留下來是我們寫爬蟲的關鍵。首先我們需要用到兩個庫：urllib.request庫用來獲取網頁的url 用 re 庫來實現具體框架。首先我們來看我們要獲取的**的html資訊

複製**

以上這段html檔案是我從**上檢視到的，我們可以發現用紅筆圈出來的部分使我們需要的資料，而這些資料都在藍筆圈出來的部分裡面那麼我們可以把問題分為三個步驟。1.提取html裡「dl」內的部分 2.提取「dl」內"dd"的部分 3.清洗資料，取出我們要的部分。 **如下：

import urllib.request as req
import re
url=''
#獲取要爬取的網頁的url
webpage=req.urlopen(url) 
data=webpage.read().decode('utf-8') #開啟該url，並讀取其中的資料
website=''
#儲存該網頁的url
dl=re.findall(r'',data,re.s) #找到要取的資料的特點 dl 語句擷取dl裡的資料
dd=re.findall(r'',dl[0],re.s) #找到每個鏈結的特點 dd 語句，擷取dd裡的資料
hrefs=
for i in dd: #遍歷dd
href=re.findall(r'',i,re.s) #把每一項的資料儲存在 href 中
href=str(href)
href=href.replace("['",'') #清洗取出來的資料
href=href.replace("']",'')
href=href.replace(' title="','')
href=href.replace(' href="/','')
for i in hrefs:
print(i)
print('\n')
複製**

初學Python爬蟲之簡單爬取小說的網頁鏈結及目錄

Python簡單爬蟲（爬取天氣資訊）

Python爬蟲之爬取動漫之家

python爬蟲初戰之小說爬取

初學Python爬蟲之簡單爬取小說的網頁鏈結及目錄

Python簡單爬蟲（爬取天氣資訊）

Python爬蟲之爬取動漫之家

python爬蟲初戰之小說爬取

相關推薦