python 爬取b站彈幕並寫入到csv

2021-10-08 03:06:32 字數 1749 閱讀 4318

import requests

import re

from bs4 import beautifulsoup

import csv

import pandas as pd

from itertools import islice

import numpy as np

def get_csv

(url)

: #請求的方式得到資料jason檔案

bvindex = url.

find

('bv'

) id = url[bvindex:

] url=

''+id+

'&jsonp=jsonp'

r=requests .

get cid=r.

json()

['data'][

0]['cid'

] urll=

''+str

(cid)

+'.xml'#利用cid獲取對應彈幕

rr=requests.

get(url=urll,headers=headers)

rr.encoding=

'uft-8'

soup=

beautifulsoup

(rr.text,

'lxml'

) danmu_info=soup.

find_all

('d'

) all_info=

all_text=

for i in danmu_info:

all_info.

(i['p'

]) #得到彈幕資訊

all_text.

(i) #得到彈幕內容

f =open

('danmu_info.csv'

,'w'

, encoding=

'utf-8'

) csv_writer = csv.

writer

(f) csv_writer.

writerow([

"時間"

,"彈幕模式"

,"字型大小大小"

,"顏色"

,"unix格式時間戳"

,"彈幕種類"

,"傳送者id"

,"rowid"

]) #彈幕資訊就是按這麼個順序排列的

for i in all_info:

i=str(i)

.split

(','

) #把彈幕資訊分隔好

csv_writer.

writerow

(i) f.

close()

f =open

('danmu_text.csv'

,'w'

, encoding=

'utf-8'

) csv_writer = csv.

writer

(f) csv_writer.

writerow([

"內容"])

for i in all_text:

csv_writer.

writerow

(i) f.

close()

if __name__==

'__main__'

:get_csv

('')

爬取B站彈幕

最近幾天學習爬蟲,便爬取了b站的彈幕,本篇博文記錄的是爬取彈幕的方法一,近期會更新方法二。下面是流程 點開這個包是這個形式的 這裡面就有明文的彈幕,但通過requests獲得的response是經過utf 8編碼加密過的,想要獲得彈幕內容還要解密。下面附 from bs4 import beauti...

python爬取B站彈幕學習筆記

然後開啟檢查,選擇net 這個位址就是存放彈幕的檔案 接下來我們之間用request模組去get文字,beautifulsoup去處理獲取文字,然後匯入到詞云 匯入擴充套件庫 import re 正規表示式庫 import collections 詞頻統計庫 import numpy as np n...

爬蟲專欄6 爬取B站彈幕

比如說這裡我隨便開乙個網頁 在xhr標籤裡面可以看到乙個小眼睛圖示的玩意兒,開啟那個url進去之後 就可以直接提取了 ps 1.針對匹配,乙個尖括號結束之後最好用.過渡到另乙個尖括號,不要什麼都不加,可能抓不出來 2.這是針對response.text和response.content.decode...