Python爬蟲 爬取喜馬拉雅音訊資料詳解

2021-10-11 16:13:42 字數 2591 閱讀 6370

喜馬拉雅是專業的音訊分享平台,匯集了有聲**,有聲讀物,有聲書,fm電台,兒童睡前故事,相聲小品,鬼故事等數億條音訊,我最喜歡聽民間故事和德雲社相聲集,你呢?

今天帶大家爬取喜馬拉雅音訊資料,一起期待吧!!

爬取喜馬拉雅音訊資料

受害者位址

環境:案例思路:

先導入所需的模組

import requests

import parsel # 資料解析模組

import re

1.確定資料所在的鏈結位址(url) 逆向分析 網頁性質(靜態網頁/動態網頁)

複製url,搜尋

找到id值

# 提取音訊位址

m4a_url = json_data['data']['src']

# print(m4a_url)

# 請求音訊資料

m4a_data = requests.get(url=m4a_url, headers=headers).content

new_title = change_title(title)

4.資料持久化(儲存)

with open('video\\' + new_title, mode='wb') as f:

f.write(m4a_data)

print('儲存完成:', title)

最後還要處理檔名非法字元

def change_title(title):

pattern = re.compile(r"[\/\\\:\*\?\"\\|]") # '/ \ : * ? " < > |'

new_title = re.sub(pattern, "_", title) # 替換為下劃線

return new_title

import re

import requests

import parsel # 資料解析模組

def change_title(title):

"""處理檔名非法字元的方法"""

pattern = re.compile(r"[\/\\\:\*\?\"\\|]") # '/ \ : * ? " < > |'

new_title = re.sub(pattern, "_", title) # 替換為下劃線

return new_title

for page in range(13, 33):

print('---------------正在爬取第{}頁的資料----------------'.format(page))

# 1.確定資料所在的鏈結位址(url) 逆向分析 網頁性質(靜態網頁/動態網頁)

url = 'youshengshu/4256765/p{}/'.format(page)

headers = &ptype=1'.format(m4a_id)

json_data = requests.get(url=json_url, headers=headers).json()

# print(json_data)

# 提取音訊位址

m4a_url = json_data['data']['src']

# print(m4a_url)

# 請求音訊資料

m4a_data = requests.get(url=m4a_url, headers=headers).content

new_title = change_title(title)

# print(new_title)

# 4.資料持久化(儲存)

with open('video\\' + new_title, mode='wb') as f:

f.write(m4a_data)

print('儲存完成:', title)

except:

pass

執行**,效果如下圖

Python爬蟲 喜馬拉雅音訊爬取

爬取喜馬拉雅三國中的前十章音訊 匯入requests模組 import requests 匯入正規表示式 import re 解決反爬問題,匯入ua header 網頁源 中獲取的前十章id sound ids 64686514,64689648,64695831,64695832,3218935,...

喜馬拉雅 音訊爬取

import requests import parsel headers 介面的 url 每一集 都有相對應的 id 的引數值 def down mp4 player,mp4 name resp requests.get player,headers headers path r c users ...

Python爬蟲實戰案例之爬取喜馬拉雅音訊資料詳解

前言 喜馬拉雅是專業的音訊分享平台,匯集了有聲 有聲讀物,有聲書,fm電台,兒童睡前故事,相聲小品,鬼故事等數億條音訊,我最喜歡聽民間故事和德雲社相聲集,你呢?今天帶大家爬取喜馬拉雅音訊資料,一起期待吧!這個案例的 位址在這裡 專案目標 爬取喜馬拉雅音訊資料 受害者位址 本文知識點 1 系統分析網頁...