爬取小說的簡易python爬蟲

2021-08-14 09:57:10 字數 938 閱讀 2447

學習一段時間的python之後決定寫些東西  剛好自己喜歡看**就像寫一段爬取**的爬蟲,這裡以筆趣閣的**為例。

我發現筆趣閣的每個**的目錄源**基本都包含其所有的章節的url,所以這段**是先獲取所有的url然後逐頁獲取其文字

import requests #這裡以**天地霸氣訣為例

import re

import bs4

import os

path=open("天地霸氣訣.txt",'a',encoding='utf-8')

biaoti=''

r=requests.get('')

demo=r.text

soup=bs4.beautifulsoup(demo,"html.parser")

xx=soup("a")

bb=s=0

for i in xx:

s+=1

if s >= 25:

#print(i["href"])

for i in bb:

url=''+i

r=requests.get(url)

demo=r.text

soup=bs4.beautifulsoup(demo,"html.parser")

if biaoti == soup.title.get_text():

continue

title='\t\t'+soup.title.get_text()+'\n'

biaoti = soup.title.get_text()

path.write(title)

print(title)

aa=soup.find_all('div',)

ss=aa[0].get_text()

path.write(ss)

path.close()

Python爬蟲例項,爬取小說

import pprint import requests from bs4 import beautifulsoup 獲取原始碼 defget source url r requests.get url if r.status code 200 print r.status code 錯誤 rai...

爬蟲之小說爬取

以筆趣閣 為例,爬取一念永恆這本 具體 如下 1 from bs4 import beautifulsoup 2from urllib import request 3import requests 4importre5 import sys6 def down this chapter chapt...

python爬蟲爬取網路小說

首先,獲取html頁面並解析,為方便儲存和使用頁面的encoding,直接使用全域性變數 章節名章節名 章節名.從結構可以看出,可以先獲取目錄的頂層標籤 class box 的標籤 然後再獲取該標籤內所有的li標籤即可。由於頁面內有其他的class box 的標籤,因此本次使用soup.find s...