python 爬蟲 慶餘年小說 詞云胡亂分析

2021-10-02 10:52:08 字數 2670 閱讀 4977

進入正題,首先要搞到資源,我先去了搜尋了一番,找到個**「落霞」。一言不合就按下了f12,翻了下網頁原始碼,超級簡單。

from bs4 import beautifulsoup

from requests import session

from re import sub,dotall

sess = session(

)txt=

url =

''deffind

(url)

: res = sess.get(url)

soup = beautifulsoup(res.content,

'html.parser'

) title = soup.find(

'title'

) div = soup.find(

'div',id

='nr1'

) ps = div.find_all(

'p')

page = title.text+

'\n'

print

(page)

for p in ps:

page += p.text+

'\n'

try:

a = soup.find(

'a',rel=

'next'

) href = a[

'href'

]except

:return

0 find(href)

find(url)

網頁結構真的超級簡潔有規律,標題就在裡,正文在乙個title標籤裡,而且每段話都用p標籤包起來了。不過他的**不是連續的數字,so,迭代**。下一章的鏈結就包在乙個a標籤裡,還帶了屬性。給落霞**程式設計師打call,不過我馬上就後悔了,這個**速度有點慢,差不多一秒一章的樣子?

是我換了個**,書趣閣,這個倒是快,就是程式設計師不喜歡打標記。

'下一章'][

0]if'index'

notin href:

shuquge(href)

shuquge(url)

標籤都沒個正經屬性,還一堆廣告。正文裡面也有,還得我刪

import jieba,cv2

from wordcloud import wordcloud

img=cv2.imread(

'c2cec1e832a833ded3f6f9bbc226ae2f.jpeg'

)content=

' '.join(jieba.cut(

''.join(shu)))

wordshow = wordcloud(background_color=

'white'

, width=

800,

height=

800,

max_words=

800,

max_font_size=

100,

font_path=

"msyh.ttc"

,#用微軟雅黑作為字型顯示效果

mask=img,

mode=

'rgba'

).generate(content)

wordshow.to_file(

'word.png'

)#轉換成

from codecs import

open

with

open

('慶餘年.txt'

,'w'

,'utf8'

)as f:

f.write(

'\n'

.join(shu)

)#網頁是utf8的,windows下直接用gbk存不了

基於Python的《慶餘年》評論分析

支援人數 3594 支援人數 2285 支援人數 1929 支援人數 1384 支援人數 1696 接下來提取字段,清洗處理,部分結果如下 達康書記的臉配上陳萍萍的名字,有種莫名的喜感。帶著鐐銬能把舞跳這麼好我是很服的,開頭的穿越設定很驚豔,第一集這個還原度真心沒得說,小范閒人畜無害的笑我可太喜歡了...

Python 爬蟲(獲取小說)

以 筆趣閣 為例 需求 python3版本以上 安裝方法如下 先安裝python3 pip,然後檢查下版本,如果版本可以公升級,就 upgrade pip 一下,然後再安裝beautifulsoup4 sudo apt get install python3 pip pip3 version pip...

python 爬蟲,抓取小說

coding utf 8 from bs4 import beautifulsoup from urllib import request import re import os,time 訪問url,返回html頁面 defget html url req request.request url ...