爬取小說釣趣例項 一

2021-10-07 05:11:15 字數 1322 閱讀 5570

看大家對網路爬蟲興趣不高,那就讓我做乙個有鉤的姜太公,來釣一釣大魚。

接下來講一講如何爬取一部**,因為爬取網頁要掌握很多預備知識,可能你掌握的知識不夠,沒關係,釣趣嗎?就當先看看怎麼寫爬蟲。

本人還是比較喜歡推理**的,所以在乙個**上找到了東野圭吾的作品集,然後我們的目的就是爬取他的一部比較著名的**《白夜行》。

我的思路是這樣的:

先觀察這個**的內容,比如有多少章,每一張有多少頁;

**網頁的源**,檢視**的主要內容結構;

分析源**,構思怎麼爬取我想要的內容;

構思爬蟲程式,選擇使用什麼爬蟲庫、爬蟲資料分析庫等;

如何儲存爬取到的資訊。

**《白夜行》共13章,但是第一章、第十二章和第十三章又分上下兩章,所以總的來說應該是16章。

既然知道總共16章,那看看每一章有多少頁,看一下第一章(上):

通過對這三個url的簡單分析,可以看出來每章第一頁的url以數字.html結尾,第二頁以數字_2.html結尾,第三頁以數字_3.html結尾,剩下的以此類推。

現在看一下第一章(下)的第一頁:

細心點可以發現它的url位址以147592.html結束,第一章(上)的url位址以147591.html結尾,所以,我們發現了一點規律:

然後我們看一下原始碼,就看第一章(上)的第一頁的原始碼:

這裡源**中有很多內容,但是我們想要的只有兩個,第乙個是這個網頁是第幾章的內容,第二個是這個網頁有多少段**文字。可以看到這兩個內容分別在標籤之中和標籤content

之中。所有的爬取前準備工作都搞完了,接下來要想一想用什麼工具爬取和怎麼爬取了,下回講。

04筆趣閣小說爬取 爬取整部小說

考慮到爬取時間有點長,再加上一行資訊充當進度條。完整 如下 import requests from bs4 import beautifulsoup 獲取章節名稱和鏈結 target 目錄頁位址 req requests.get url target 使用beautifulsoup 篩選出id l...

Python爬取新筆趣閣小說

1 首先就是先安裝第三方庫requests,這個庫,開啟cmd,輸入pip install requests回車就可以了,等待安裝。然後測試 import resquests2 然後就可以編寫程式了,首先獲取網頁源 也可以在瀏覽器檢視和這個進行對比。s requests.session url ht...

初級爬蟲爬取筆趣閣小說

import requests from pyquery import pyquery as pq def get content a response requests.get a response.encoding gbk doc pq response.text text doc conten...