request爬取小說內容

#request爬取**內容
import re
import requests
import os
bookurl=
''#書的位址
booksite=requests.get(bookurl)
#獲取書的網頁
booksite.encoding=
'gbk'
book_name=re.findall(
'',booksite.text)[0
]#獲取書名
ifnot os.path.exists(f'd:/'):
#如果不存在書名的資料夾
os.mkdir(f'd:/'
)#新建以書名命名的目錄
sectionurl=re.findall(
'/0_193/(.*?)">'
,booksite.text)
#獲取各章節位址的最後部分
chaptersite=
#定義章節**列表，用於存放所有完整章節**
for i in
range
(len
(sectionurl)):
)#將完整章節**乙個乙個放入chaptersite列表中
# print(chaptersite[i])
print
(len
(chaptersite)
)texts=
#定義列表存放每一章的網頁內容
filenames=
#定義列表存放各章節名做為檔名
for j in
range(9
,18):
))#將獲取的每一章的網頁內容乙個乙個放入texts列表中
texts[j-9]
.encoding=
'gbk'
'',texts[j-9]
.text)[0
])#獲取各章節名存放入filenames列表中
if'第'
in filenames[j-9]
: body=re.findall(
'    (.*?)
',texts[j-9]
.text,re.s)
#從各章節網頁內容中獲取各章節正文
with
open
(f'd://.txt'
,'w+'
)as filej:
for k in
range
(len
(body)):
filej.write(
' '
) filej.write(body[k]
) filej.write(
'\n'
)

用python爬取小說章節內容

在學爬蟲之前,最好有一些html基礎,才能更好的分析網頁.主要是五步 1.獲取鏈結 2.正則匹配 3.獲取內容 4.處理內容 5.寫入檔案如下匯入相關model from bs4 import beautifulsoup import requests import re 獲取目標鏈結位址 ur...

用python爬取小說章節內容

在學爬蟲之前,最好有一些html基礎,才能更好的分析網頁.主要是五步 1.獲取鏈結 2.正則匹配 3.獲取內容 4.處理內容 5.寫入檔案如下匯入相關model 2from bs4 import beautifulsoup 3import requests 4importre5 6 獲取目標鏈結...

requests爬取小說

1.url解析 2.傳送請求 3.接收返回 4.進行解析 5.儲存將國風中文網制定頁的的題目作者最近更新章節和時間抓取下來儲存到本地小夥伴們，今天我們用的利劍是requests xpath 第一步匯入模組 import requests from lxml import etree im...

request爬取小說內容

用python爬取小說章節內容

用python爬取小說章節內容

requests爬取小說

相關推薦