初學Python爬蟲之簡單爬取小說的網頁鏈結及目錄

2021-09-24 08:04:18 字數 1263 閱讀 7920

學習python的同學想必都知道,python的庫有很多,今天我們就來運用urllib.request庫和re庫來寫乙個簡單的爬蟲**

複製**

我們要寫乙個爬蟲**首先要有乙個初步的認識,那就我們要爬取的內容是什麼,以及該如何爬取。爬蟲是用來抓取資訊的一段程式或**,那麼該如何準確的找到資訊或者說如何把需要的資訊留下來是我們寫爬蟲的關鍵。首先我們需要用到兩個庫:urllib.request庫用來獲取網頁的url 用 re 庫來實現具體框架。

首先我們來看我們要獲取的**的html資訊

複製**

以上這段html檔案是我從**上檢視到的,我們可以發現用紅筆圈出來的部分使我們需要的資料,而這些資料都在藍筆圈出來的部分裡面那麼我們可以把問題分為三個步驟。1.提取html裡「dl」內的部分 2.提取「dl」內"dd"的部分 3.清洗資料,取出我們要的部分。 **如下:

import urllib.request as req

import re

url=''

#獲取要爬取的網頁的url

webpage=req.urlopen(url)

data=webpage.read().decode('utf-8') #開啟該url,並讀取其中的資料

website=''

#儲存該網頁的url

dl=re.findall(r'',data,re.s) #找到要取的資料的特點 dl 語句擷取dl裡的資料

dd=re.findall(r'',dl[0],re.s) #找到每個鏈結的特點 dd 語句,擷取dd裡的資料

hrefs=

for i in dd: #遍歷dd

href=re.findall(r'',i,re.s) #把每一項的資料儲存在 href 中

href=str(href)

href=href.replace("['",'') #清洗取出來的資料

href=href.replace("']",'')

href=href.replace(' title="','')

href=href.replace(' href="/','')

for i in hrefs:

print(i)

print('\n')

複製**

Python簡單爬蟲(爬取天氣資訊)

初學python,學到python爬蟲時在網上找資料,發現找到的大部分都是前部分內容對運作方式介紹,然後就直接上 了,這樣對像我一樣的小白來說比較困難,的注釋較少,部分 塊沒有詳細說明運作方式和具體作用,所以寫此筆記方便別人和自己以後進行學習檢視。作業系統window python2.7.10 wi...

Python爬蟲之爬取動漫之家

python爬蟲之爬取動漫之家 小白上手爬蟲第一天,簡單爬取 動漫之家。小小目標 1.爬取5頁的動漫 2.以list返回其動漫位址和動漫名字 簡單粗暴,直接附上原始碼 import requests import re 獲取頁面 defgethtmltext url try kv r request...

python爬蟲初戰之小說爬取

廢話不多說,上 總體思路是構建函式然後迴圈。函式分兩塊,第乙個函式得到標題和每一章節的 第二個函式得到每一章節的具體內容,然後迴圈就ok。import urllib.request as req import re 開啟頁面,找到正文 url name 流星蝴蝶劍 defget url title ...