酷虎小說網爬蟲

2021-10-07 14:31:22 字數 735 閱讀 7058

import requests

from pyquery import pyquery

import re

import os

# 構造請求頭

headers =

# todo 1.根據**鏈結得到**目錄和對應的url

def get_catalogue(url):

# 傳送請求

response = requests.get(url=url, headers=headers)

response.encoding = "gbk" # 指定編碼

chapter_info_list = # 用來儲存獲取到的所有url和章節標題資料

doc = pyquery(response.text)

# print(doc)

pages_url = doc(".list-charts li a").items()

# print(pages_url)

for page_url in pages_url:

title = page_url.text()

chapter_url = "" + page_url.attr("href")

# print(title, chapter_url)

# 使用字典儲存url和title

chapter = {"title": title, "url": chapter

全本小說網小說爬蟲

coding utf 8 import requests from pyquery import pyquery import re import os 構造請求頭 headers todo 1.根據 鏈結得到 目錄和對應的url def get catalogue url 傳送請求 respons...

python爬蟲17K小說網資料

python爬蟲17k 網資料 有一些庫可能沒有用,當時寫的時候參考了很多書籍資料,書籍裡用了,我沒有用,但是本著懶的原則,我就沒有特意把那些沒有用到的庫刪掉。因為我們老師對注釋特別強調,為了不讓老師抓錯,我就把除了import的 外的 都加了注釋。from bs4 import beautiful...

使用scrapy爬蟲,爬取起點小說網的案例

爬取的頁面為 爬取的 為凡人修仙之仙界篇,這邊 很不錯。正文的章節如下圖所示 其中下面的章節為加密部分,現在暫時無法破解加密的部分。唉.下面直接上最核心的 位於spiders中的核心 coding utf 8 import scrapy from qidian.items import qidian...