虎牙直播資料爬取

2022-07-11 06:18:13 字數 1320 閱讀 4203

新的一周開始了,開始對之前的**的更新與修改。

在上週沒做好的一點有直播分類,始終無法把想抓取的分類名用文字的方式顯示出來

類別的名字是在乙個p標籤裡,我原本以為只要抓取p標籤然後後邊加個.string就能只取文字得到類別名字,執行後才知道普通的取文字的方法也是不管用的

因為.string前邊的find語句只能是find而不能是find_all,因為.string只能取單個的文字而不是很多標籤的文字內容,所以就會報錯。

在經過修改以後我們做了如下調整:

如圖,新增乙個for迴圈,i是alist標籤裡的所有屬性,我們把i在alist裡全部輸出一遍,然後把最後的文字使用string方法取一下文字,這樣i每一次輸出只會被當成是乙個標籤內容

因為i是一遍又一遍輸出的所以並不屬於多個標籤,這樣就能只取文字內容了

使用python爬取資料,比較容易犯的錯誤大概有這些:

語法錯誤,很多語句不知道怎麼去寫,或者寫出來寫的並不對。

符號,標點符號用錯,往往因為乙個不起眼的標點符號而導致整個程式執行不出來,如果程式比較大的話還不好找出來,這是最讓人苦惱的

接下來就是爬取主播的直播資料了,爬取直播資料並不難,按常用的方法是只需要設定乙個偽裝頭,然後一層層的往裡抓標籤再抓取內容就好了,這樣就可以抓取到我們想要的資料

因為這邊我是已經把**封裝起來嘗試存進資料庫了,所以就稍稍改動執行了一下結果,結果就只有第一頁的主播直播資料,這個**裡的資料都是實時的,根據虎牙直播頁面改變而改變的,所以執行結果與實時查詢的結果可能會有不符,但是都是正確的,直播頁面顯示的都能抓取出來。

一位內河邊

但是,虎牙直播頁面並沒有這麼簡單,因為直播頁面是屬於動態頁面的,有很多頁直播間,但是你換頁上邊的**卻不會換,所以,想要抓取所有的直播資料就不能再用這一套方法了,用這個方法抓取出來的僅僅是第一頁的資料,我們要使用新的方法,具體操作步驟

使用json方法爬取虎牙直播動態頁面直播資料

接上次隨筆來講,抓取動態頁面不能用普通的函式去抓取了,這就要用到json方法了 json簡介以及使用方法可以在這個 裡面學習 回到正題 動態頁面的翻頁檢視是藏在這個裡面的,如圖可以看到,後面page 4就是代表這是第四頁。整個頁面的所有資訊都是在這裡面可以查到的,而我們只需要使用json函式去抓取 ...

Python實現自動錄製虎牙直播

之前比較喜歡看虎牙的直播,但是由於時間比較忙沒辦法看,最近學完python的基礎課程後考慮能否用python來實現自動錄影,這樣想什麼時候看就能什麼時候看,比較方便。僅從使用角度來看,需要安裝 python 開玩笑怎麼能沒有這個 python所需的模組 requests json re 錄屏軟體 f...

Scrapy Mongodb爬取資料

scrapy爬蟲資料存到mongodb中 其實主要是前兩步 1 在settings.py中進行配置 item pipelines mongodb host 127.0.0.1 mongodb port 27017 mongodb dbname spider1 mongodb docname book...