request爬取小說內容

2021-10-14 11:00:15 字數 1420 閱讀 2965

#request爬取**內容

import re

import requests

import os

bookurl=

''#書的位址

booksite=requests.get(bookurl)

#獲取書的網頁

booksite.encoding=

'gbk'

book_name=re.findall(

'',booksite.text)[0

]#獲取書名

ifnot os.path.exists(f'd:/'):

#如果不存在書名的資料夾

os.mkdir(f'd:/'

)#新建以書名命名的目錄

sectionurl=re.findall(

'/0_193/(.*?)">'

,booksite.text)

#獲取各章節位址的最後部分

chaptersite=

#定義章節**列表,用於存放所有完整章節**

for i in

range

(len

(sectionurl)):

)#將完整章節**乙個乙個放入chaptersite列表中

# print(chaptersite[i])

print

(len

(chaptersite)

)texts=

#定義列表存放每一章的網頁內容

filenames=

#定義列表存放各章節名做為檔名

for j in

range(9

,18):

))#將獲取的每一章的網頁內容乙個乙個放入texts列表中

texts[j-9]

.encoding=

'gbk'

'',texts[j-9]

.text)[0

])#獲取各章節名存放入filenames列表中

if'第'

in filenames[j-9]

: body=re.findall(

'    (.*?)

',texts[j-9]

.text,re.s)

#從各章節網頁內容中獲取各章節正文

with

open

(f'd://.txt'

,'w+'

)as filej:

for k in

range

(len

(body)):

filej.write(

' '

) filej.write(body[k]

) filej.write(

'\n'

)

用python爬取小說章節內容

在學爬蟲之前,最好有一些html基礎,才能更好的分析網頁.主要是五步 1.獲取鏈結 2.正則匹配 3.獲取內容 4.處理內容 5.寫入檔案 如下 匯入相關model from bs4 import beautifulsoup import requests import re 獲取目標鏈結位址 ur...

用python爬取小說章節內容

在學爬蟲之前,最好有一些html基礎,才能更好的分析網頁.主要是五步 1.獲取鏈結 2.正則匹配 3.獲取內容 4.處理內容 5.寫入檔案 如下 匯入相關model 2from bs4 import beautifulsoup 3import requests 4importre5 6 獲取目標鏈結...

requests爬取小說

1.url解析 2.傳送請求 3.接收返回 4.進行解析 5.儲存 將國風中文網制定頁的 的題目 作者 最近更新章節和時間抓取下來儲存到本地 小夥伴們,今天我們用的利劍是requests xpath 第一步 匯入模組 import requests from lxml import etree im...