爬取小說釣趣例項一

看大家對網路爬蟲興趣不高，那就讓我做乙個有鉤的姜太公，來釣一釣大魚。

接下來講一講如何爬取一部**，因為爬取網頁要掌握很多預備知識，可能你掌握的知識不夠，沒關係，釣趣嗎？就當先看看怎麼寫爬蟲。

本人還是比較喜歡推理**的，所以在乙個**上找到了東野圭吾的作品集，然後我們的目的就是爬取他的一部比較著名的**《白夜行》。

我的思路是這樣的：

先觀察這個**的內容，比如有多少章，每一張有多少頁；

**網頁的源**，檢視**的主要內容結構；

分析源**，構思怎麼爬取我想要的內容；

構思爬蟲程式，選擇使用什麼爬蟲庫、爬蟲資料分析庫等；

如何儲存爬取到的資訊。

**《白夜行》共13章，但是第一章、第十二章和第十三章又分上下兩章，所以總的來說應該是16章。

既然知道總共16章，那看看每一章有多少頁，看一下第一章（上）：

通過對這三個url的簡單分析，可以看出來每章第一頁的url以數字.html結尾，第二頁以數字_2.html結尾，第三頁以數字_3.html結尾，剩下的以此類推。

現在看一下第一章（下）的第一頁：

細心點可以發現它的url位址以147592.html結束，第一章（上）的url位址以147591.html結尾，所以，我們發現了一點規律：

然後我們看一下原始碼，就看第一章（上）的第一頁的原始碼：

這裡源**中有很多內容，但是我們想要的只有兩個，第乙個是這個網頁是第幾章的內容，第二個是這個網頁有多少段**文字。可以看到這兩個內容分別在標籤之中和標籤content

之中。所有的爬取前準備工作都搞完了，接下來要想一想用什麼工具爬取和怎麼爬取了，下回講。

04筆趣閣小說爬取爬取整部小說

考慮到爬取時間有點長，再加上一行資訊充當進度條。完整如下 import requests from bs4 import beautifulsoup 獲取章節名稱和鏈結 target 目錄頁位址 req requests.get url target 使用beautifulsoup 篩選出id l...

Python爬取新筆趣閣小說

1 首先就是先安裝第三方庫requests,這個庫，開啟cmd，輸入pip install requests回車就可以了，等待安裝。然後測試 import resquests2 然後就可以編寫程式了，首先獲取網頁源也可以在瀏覽器檢視和這個進行對比。s requests.session url ht...

初級爬蟲爬取筆趣閣小說

import requests from pyquery import pyquery as pq def get content a response requests.get a response.encoding gbk doc pq response.text text doc conten...

爬取小說釣趣例項 一

04筆趣閣小說爬取 爬取整部小說

Python爬取新筆趣閣小說

初級爬蟲爬取筆趣閣小說

相關推薦

爬取小說釣趣例項一

04筆趣閣小說爬取爬取整部小說