爬取抖音品牌熱DOU榜資料

2021-10-04 23:06:09 字數 2367 閱讀 2414

品牌熱dou榜介紹: 抖音方面表示,品牌熱dou榜是基於抖音指數為品牌打造的榜單,旨在反映品牌在抖音上的傳播聲量,讓品牌隨時了解自身在抖音的熱度影響力,以及大眾對於品牌的敏感度,為品牌建立長效的品牌營銷認知。目前,榜單涵蓋汽車、美妝和手機,食品飲料、服飾、奢侈品、家電等多個行業。

不扯了~

進入正題

主要過程網頁內容:

然後以此規律,分析分析分析其它型別總週期的url,發現區別僅僅在category_id:

匯入相關庫

"""

每個分類的總週期數的url區別在category_id,分別為1-7

"""import requests

import csv,codecs

傳入id用於構造每期url鏈結

def weeks_url(id):

"""id為每個分類的category_id

獲取每週期的唯一標識,用於構建每一週期的url鏈結

"""res=requests.get(car_weeks_api)

if res.status_code==200:

data=res.json()

data_list=data.get('weekly_list')

return data_list

獲取每週排行的頁面源**

def week_ranking(id,start_date):

#獲取每週排行的頁面源**

res=requests.get(car_url)

if res.status_code==200:

return res.json()

解析頁面內容

def parse_detail(rank_data):

#解析提取內容

week_info=rank_data['weekly_info']

serial = week_info['serial'] # 第幾期

date=week_info['start_date']+'至'+week_info['end_date'] #起始和終止日期

brand_list=rank_data['brand_list']

data=

for i in brand_list:

name=i['name'] #名字

heat=i['heat'] #熱度

rank=i['rank'] #排行第幾

'name':name,

'heat':heat,

'rank':rank,

'week':serial,

'date':date

})return data

def download(data,type_name):

#寫入excel檔案中

with codecs.open(type_name+'.csv','a',encoding='utf_8_sig') as f:

f_csv=csv.writer(f,dialect='excel')

f_csv.writerow(['name','heat','rank','week','date'])

for i in data:

f_csv.writerow([i['name'],i['heat'],i['rank'],'第'+str(i['week'])+'期',i['date']])

def run():

types=['汽車','手機','美妝','奢侈品','食品飲料','家用電器','服裝鞋帽']

for id in range(1,8):

data_list = weeks_url(id)[0:3]

for l in data_list:

try:

start_date = l['start_date']

rank_data = week_ranking(id,start_date)

data=parse_detail(rank_data)

download(data,types[id-1])

except:

python爬蟲 爬取抽屜新熱榜

爬取段子 抽屜 爬蟲的常規操作,根據需求進行分析。我們要爬取段子,也就是每條段子資訊。先按f12檢視一下網頁,審查元素。我們剛好找到段子資訊,看看其他段子是不是也在這個位置。我們發現了25條一樣的 提取這些資訊,我們同樣使用beautifulsoup。beautifulsoup的用法我在另一篇文章中...

爬取新浪微博熱搜榜

一 主題式網路爬蟲設計方案 15分 3.主題式網路爬蟲設計方案概述 包括實現思路與技術難點 本案例使用requests庫獲取網頁資料,使用beautifulsoup庫解析頁面內容,再使用pandas庫把爬取的資料輸出,並對資料視覺化,最後進行小結 技術難點 爬取有用的資料,將有礙分析的資料剔除,回歸...

Python爬取微博熱搜榜,將資料存入資料庫

這裡是用來爬取微博熱搜榜的資料,網頁位址為開啟網頁並按下f12進入開發者模式,找到.裡的內容,如圖所示 href後面的內容即為對應的中文編碼的原始碼,其中很多25應該是干擾字元,後面刪掉解析就可以發現是微博熱搜的標題。我數了下,一共有27個,剛好第乙個標題為 比伯願為賽琳娜捐腎 九個字,乙個漢字佔三...