python爬取B站彈幕學習筆記

2022-05-27 00:45:12 字數 2801 閱讀 6889

然後開啟檢查,選擇net

這個位址就是存放彈幕的檔案

接下來我們之間用request模組去get文字,beautifulsoup去處理獲取文字,然後匯入到詞云

#

匯入擴充套件庫

import re #

正規表示式庫

import collections #

詞頻統計庫

import numpy as np #

numpy資料處理庫

import jieba #

結巴分詞

import wordcloud #

詞云展示庫

from pil import image #

影象處理庫

import matplotlib.pyplot as plt #

影象展示庫

import requests #

網路爬取

from bs4 import beautifulsoup #

html解析

url = "

"#彈幕位址

page = requests.get(url) #

獲取文字

page.encoding = '

utf-8

'soup = beautifulsoup(page.text, '

html.parser')

content = soup.find_all('d'

)string_data = ''

for i in

content:

string_data = string_data +i.text

print

(string_data)

#文字預處理

pattern = re.compile(u'

\t|\n|\.|-|:|;|\)|\(|\?|"|(|)|《|》|:|?|!

') #

定義正規表示式匹配模式,匹配所有的標點空格,u是標誌unicode的編碼字元

string_data = re.sub(pattern, '', string_data) #

將符合模式的字元去除

#文字分詞

seg_list_exact = jieba.cut(string_data, cut_all=false) #

精確模式分詞

object_list =

remove_words = [u'

的', u'

,', u'

和', u'

是', u'

隨著', u'

對於', u'

對', u'

等', u'

能', u'

都', u'

。', u'

', u'

、', u'

中', u'

在', u'了'

, u'通常

', u'

如果', u'

我們', u'

需要'] #

自定義去除詞庫

for word in seg_list_exact: #

迴圈讀出每個分詞

if word not

in remove_words: #

如果不在去除詞庫中

分詞追加到列表

#詞頻統計

word_counts = collections.counter(object_list) #

對分詞做詞頻統計

word_counts_top10 = word_counts.most_common(10) #

獲取前10最高頻的詞

print(word_counts_top10) #

輸出檢查

#print(word_counts)

#詞頻展示

定義詞頻背景

wc =wordcloud.wordcloud(

font_path='

c:/windows/fonts/simhei.ttf

', #

設定字型格式

background_color="

white",

mask=mask, #

設定背景圖

max_words=200, #

最多顯示詞數

#max_font_size=100 # 字型最大值

)wc.generate_from_frequencies(word_counts)

#從字典生成詞云

image_colors = wordcloud.imagecolorgenerator(mask) #

從背景圖建立顏色方案

wc.recolor(color_func=image_colors) #

將詞云顏色設定為背景圖方案

plt.imshow(wc) #

顯示詞云

plt.axis('

off') #

關閉座標軸

plt.show() #

顯示影象

view code

效果如下:

爬取B站彈幕

最近幾天學習爬蟲,便爬取了b站的彈幕,本篇博文記錄的是爬取彈幕的方法一,近期會更新方法二。下面是流程 點開這個包是這個形式的 這裡面就有明文的彈幕,但通過requests獲得的response是經過utf 8編碼加密過的,想要獲得彈幕內容還要解密。下面附 from bs4 import beauti...

爬蟲專欄6 爬取B站彈幕

比如說這裡我隨便開乙個網頁 在xhr標籤裡面可以看到乙個小眼睛圖示的玩意兒,開啟那個url進去之後 就可以直接提取了 ps 1.針對匹配,乙個尖括號結束之後最好用.過渡到另乙個尖括號,不要什麼都不加,可能抓不出來 2.這是針對response.text和response.content.decode...

python 爬取b站彈幕並寫入到csv

import requests import re from bs4 import beautifulsoup import csv import pandas as pd from itertools import islice import numpy as np def get csv url...