python 根據小說名稱爬取電子書

2022-09-08 00:27:24 字數 1817 閱讀 1802

上一章節小編用python爬取了「斗羅大陸」單本**,經過週末馬不停蹄、加班加點、抓耳撓腮的搬磚。終於在今天,經過優化處理後,一款基於python爬蟲來爬取千千****的程式出來了,主要功能有以下幾點:

下面,開始展示成果吧,哈哈哈哈:

頁數查詢結果顯示

資料夾儲存展示

"""判斷儲存路徑是否存在,不存在就新建

:param book_name: 書籍名稱

:return:

"""base_dir = path(__file__).parent.joinpath("book")

if not os.path.exists(base_dir):

os.mkdir(base_dir)

return base_dir.joinpath(book_name)

依舊是新建檔案……

看頁面,注意觀察到第一頁的url為,當檢視第二頁、第三頁…時候的url時,後面就多了個頁數+.html,例如第二頁的url值是這樣的2.html。於是,小編得出這樣的乙個想法:url=頁數.html

封裝乙個函式,開始進行處理.....

這裡也可以改成定義乙個起始頁數、乙個結束頁數,這樣就更方便查詢了,小夥伴們可以試試哈。

啟用萬能工具f12,指定定位到**名稱,然後….小編驚喜的看到,可以通過獲取href的屬性值就可以直接獲取完整的**目錄url(終於不用拼接了呀),同理,通過title屬性值就能得到**名稱,nice!!!!

之前儲存的字典,現在可以用上了…通過遍歷之前字典的索引值及書籍名稱,控制台進行展示。

def show_name(page: int):

"""顯示書籍名稱及索引值

:param page: 頁碼

:return:

"""for i in article_url_list(page):

# 列印索引編碼和書籍名稱

print(f"編號: - 書籍名稱:")

集合乙個入口函式,直接呼叫執行即可:

**名稱與url的存入和取出,建議列印出來後對照著來除錯取值會快很多。

input的使用位置存放的不好,後來經過和小夥伴的談論後進行了重新修改,**整體舒服多了。

未完,待續…

一直都在努力,希望您也是!

Python爬取小說

感覺這個夠蛋疼的,因為你如果正常寫的話,前幾次執行沒問題,之後你連 都沒改,再執行就出錯了。其實這可能是網路請求失敗,或者有反爬蟲的東西吧。但這就會讓你寫的時候非常苦惱,所以這這東西,健壯性及其重要!import requests from bs4 import beautifulsoup impo...

python 爬取小說

前些天突然想看一些 可能是因為壓力大,所以就要有補償機制吧。為了節省流量,就想著把內容爬下來,然後就可以在路上看了。於是有了下面的指令碼。usr bin env python coding utf 8 import requests from lxml import etree 為了解決unicod...

python爬取小說

一 準備 安裝 requests pyquery庫 二 使用 定義了search類 初始化時傳入 第一章url 和 名即可 再呼叫all content方法即可 coding utf8 import re import requests from requests.exceptions import...