python小爬蟲 爬小說(html

2021-10-24 04:57:55 字數 1742 閱讀 2991

先挑個軟柿子捏捏吧,硬的現在還不行。  就結合網頁html的各種標籤,爬取已在原始碼內的資訊。就觀察標籤的的特點,利用bs4中的beautifulsoup()進行獲取資訊。**如下:
import requests

from bs4 import beautifulsoup

"""使用beautifulsoup 解析獲得的html網頁

author: goodlikeyou

2020-9-1

"""# 乙個獲取**每一章的地

defget_content()

: re = requests.get(

'') html = re.text # 獲取到網頁資訊

bs = beautifulsoup(html,

'html5lib'

)# 使用beautifulsoup進行解析

div = bs.find_all(

'div'

, class_=

'book_list'

)# 獲取網頁中所有div 且class = book_list的標籤,獲得乙個列表

bs1 = beautifulsoup(

str(div[0]

),'html5lib'

)# 同樣將的到的列表轉化為字串後,再解析一次

target = bs1.find_all(

'a')

# 獲取網頁資訊中 所有a標籤的內容,得到的結果是乙個列表,

i =0for each in target[12:

]:link =

''+str

(each.get(

'href'))

# 獲得完整的網頁連線

request = requests.get(link)

gg = request.text

df = beautifulsoup(gg,

'html5lib'

) content = df.find_all(

'div'

, class_=

'contentbox clear'

)# 此時已找到網頁上的章節內容

xs_content = content[0]

.text.replace(

'\xa0'*4

,'\n\n'

)# .text可以去除

等內容附帶的標籤,replace則是處理 的操作

with

open

('mulongshi.text'

,'a'

, encoding=

'utf-8'

)as f:

f.writelines(each.string +

'\n\n'

) f.writelines(xs_content)

f.write(

'\n\n'*2

) i +=

1print

(% i)

return

'ok,all is over!'

if __name__ ==

'__main__'

: xs =

# url = ''

# fore_url = ''

a = get_content(

)

具體的網頁,就不貼出來了,不想多說。

python爬蟲小練習 小說爬取

import requests from bs4 import beautifulsoup if name main headers 對首頁的頁面資料進行爬取 url page text requests.get url url,headers headers text 在首頁中解析出章節的標題和詳...

python爬蟲爬網路小說

最近閒的蛋疼想看一些爽文 於是只能自己來爬一篇完整版的 進第一章,檢視源 發現 內容在.裡面 爬內容分了兩步 先爬.裡面的,再爬裡面的。但是不能只爬一章,還要繼續爬,找下一章的鏈結,在下一章裡面 還要爬標題,在裡面 於是分了四個正規表示式 story pattern1 re.compile r re...

Python爬蟲例項,爬取小說

import pprint import requests from bs4 import beautifulsoup 獲取原始碼 defget source url r requests.get url if r.status code 200 print r.status code 錯誤 rai...