爬出B站字幕做成詞云

2021-09-10 02:17:30 字數 1148 閱讀 8001

以下是原始碼, 把**後面那串數字放進程式入口就可以出結果了

import requests, re

from matplotlib import pyplot as plt

from wordcloud import wordcloud

# 獲取網頁資訊

def get_webpage(cid):

url = ''+str(cid) # 1.需抓取的**

webpage = requests.get(url=url,headers=header)

with open('bili02.txt','wb') as w:

w.write(webpage.content)

with open('bili02.txt','r',encoding='utf-8') as r:

rs = r.read()

list = re.findall('>.*?

result=''

for i in list:

result += str(i).strip('>').strip('

return result

# 詞云

def wrodcloud(str):

font = r'c:\windows\fonts\fzstk.ttf'

wc = wordcloud(font_path=font, # 如果是中文必須要新增這個,否則會顯示成框框

background_color='white',

width=1000,

height=800,

).generate(str)# 這個result就是上面的字串

wc.to_file('ss.png') # 儲存

plt.imshow(wc) # 用plt顯示

plt.axis('off') # 不顯示座標軸

plt.show() # 顯示

if __name__ == "__main__":

rs = get_webpage(71986702)

wrodcloud(rs)

結果如下:

爬取B站「冰冰vlog 001「評論 做詞云

python小白,純屬來玩的 狗頭 requests bs4jieba wordcloud imageio matplotlib 直接貼上了,自行研究 import requests import time from bs4 import beautifulsoup import json defg...

b站彈幕的爬取以及詞云的簡單使用

1.分析發現,其彈幕都是通過list.so?cid這個檔案載入出來的,所以我們找到這個檔案的請求頭的請求url,3.上 解析 usr bin env python coding utf 8 author tom import requests from lxml import etree heade...

爬取B站「冰冰vlog 001「評論 做詞云

python小白,純屬來玩的 狗頭 requests bs4jieba wordcloud imageio matplotlib 直接貼上了,自行研究 import requests import time from bs4 import beautifulsoup import json def ...