python小爬蟲爬小說（html

先挑個軟柿子捏捏吧，硬的現在還不行。  就結合網頁html的各種標籤，爬取已在原始碼內的資訊。就觀察標籤的的特點，利用bs4中的beautifulsoup（）進行獲取資訊。**如下：

import requests
from bs4 import beautifulsoup
"""使用beautifulsoup 解析獲得的html網頁
author: goodlikeyou
2020-9-1
"""# 乙個獲取**每一章的地
defget_content()
: re = requests.get(
'') html = re.text # 獲取到網頁資訊
bs = beautifulsoup(html,
'html5lib'
)# 使用beautifulsoup進行解析
div = bs.find_all(
'div'
, class_=
'book_list'
)# 獲取網頁中所有div 且class = book_list的標籤，獲得乙個列表
bs1 = beautifulsoup(
str(div[0]
),'html5lib'
)# 同樣將的到的列表轉化為字串後,再解析一次
target = bs1.find_all(
'a')
# 獲取網頁資訊中 所有a標籤的內容，得到的結果是乙個列表，
i =0for each in target[12:
]:link =
''+str
(each.get(
'href'))
# 獲得完整的網頁連線
request = requests.get(link)
gg = request.text
df = beautifulsoup(gg,
'html5lib'
) content = df.find_all(
'div'
, class_=
'contentbox clear'
)# 此時已找到網頁上的章節內容
xs_content = content[0]
.text.replace(
'\xa0'*4
,'\n\n'
)# .text可以去除
等內容附帶的標籤，replace則是處理 的操作
with
open
('mulongshi.text'
,'a'
, encoding=
'utf-8'
)as f:
f.writelines(each.string +
'\n\n'
) f.writelines(xs_content)
f.write(
'\n\n'*2
) i +=
1print
(% i)
return
'ok,all is over!'
if __name__ ==
'__main__'
: xs =
# url = ''
# fore_url = ''
a = get_content(
)

具體的網頁，就不貼出來了，不想多說。

python爬蟲小練習小說爬取

import requests from bs4 import beautifulsoup if name main headers 對首頁的頁面資料進行爬取 url page text requests.get url url,headers headers text 在首頁中解析出章節的標題和詳...

python爬蟲爬網路小說

最近閒的蛋疼想看一些爽文於是只能自己來爬一篇完整版的進第一章，檢視源發現內容在.裡面爬內容分了兩步先爬.裡面的，再爬裡面的。但是不能只爬一章，還要繼續爬，找下一章的鏈結，在下一章裡面還要爬標題，在裡面於是分了四個正規表示式 story pattern1 re.compile r re...

Python爬蟲例項，爬取小說

import pprint import requests from bs4 import beautifulsoup 獲取原始碼 defget source url r requests.get url if r.status code 200 print r.status code 錯誤 rai...

python小爬蟲 爬小說（html

python爬蟲小練習 小說爬取

python爬蟲爬網路小說

Python爬蟲例項，爬取小說

相關推薦

python小爬蟲爬小說（html

python爬蟲小練習小說爬取