豆瓣電影排行榜獲取

2022-09-27 12:09:09 字數 4378 閱讀 8071

**倉庫:

開啟豆瓣的電影排行榜,隨機找乙個分類,隨後對頁面進行分析,經過查到,找到了資訊請求的鏈結,返回的是乙個json資料,

根據請求鏈結,我們發現url所帶的引數有四個type為分類 start獲得元素起始點,相當於頁數 limit限制,相當於獲取元素終點,'interval_id'、'action'意義不明

param =
def getdata():

# 指定url 請求**:

post_url = ''

# ua偽裝

headers =

# 處理url所帶的引數,封裝到字典 type型別 4為歷史 start獲得元素起始點 limit限制,相當於獲取元素終點

param =

# 發起請求,帶3引數

r = requests.get(url=post_url, params=param, headers=headers)

print(r.url)

# 獲取相應json格式資料

lidata = r.json()

print(lidata)

# 資料儲存

with open('douban.json', 'w', encoding='utf-8') as f:

json.dump(lidata, fp=f, ensure_ascii=false)

return lidata

根據json的結構,進行如下分析

經過分析我們解析json字典

film_dict =
隨後寫入**中

def download(data):

for item in data:

film_dict =

fp.writerow(film_dict)

電影名

評分發布日期

地區型別

投票數演員數

演員辛德勒的名單

9.51993/11/30

['美國']

['劇情', '歷史', '戰爭']

961918

47['連姆·尼森', '本·金斯利', '拉爾夫·費因斯', '卡羅琳·古多爾', '喬納森·薩加爾', '艾伯絲·戴維茲', '馬爾戈薩·格貝爾', '馬克·伊瓦涅', '碧翠斯·馬科拉', '安德烈·瑟韋林', '弗里德里希·馮·圖恩', '克齊斯茨托夫·拉夫特', '諾伯特·魏塞爾', '維斯瓦夫·科馬薩', '皮奧特·賽爾沃斯', 'tadeusz huk', '馬丁·塞梅洛格', '托馬斯·德德克', '奧拉夫·盧巴申科', '馬瑞安·格林卡', '約亨·尼克爾', '艾爾文·萊德', 'maciej orlos', '吳俊全', '佐久間玲', '約阿希姆·保羅·阿斯波克', '彭河', '戈茲·奧托', '瑪雅·奧絲塔澤斯卡', 'maciej kozlowski', '阿格尼茲卡·旺格', '阿格涅茲卡·克魯科沃娜', 'eugeniusz priwieziencew', '布蘭科·拉斯蒂格', 'marta bizon', 'ezra dagan', '吉恩·萊赫納', 'razia israeli', '拉公尺·希爾伯格', '路德格·皮斯特', '埃琳娜·勒文松', '胡契克·卡勒塔', '塔德烏什·布拉德茨基', '亨里克·比斯塔', '帕維·德朗柯', '耶日·諾瓦克', '安娜·穆查']

茶館9.5

1982

['中國大陸']

['劇情', '歷史']

84736

36['於是之', '鄭榕', '藍天野', '英若誠', '黃宗洛', '童超', '金昭', '林連昆', '牛星麗', '譚宗堯', '童弟', '吳淑昆', '胡宗溫', '程中', '李大千', '李源', '李翔', '張瞳', '任寶賢', '尚麗娟', '公尺鐵增', '田春奎', '馮增祥', '雷飛', '林東昇', '孟瑾', '孫峻峰', '平原', '曹世驤', '王大年', '張華', '丁海濤', '朱旭', '孫敬修', '董行佶', '王淑華']

橫空出世

9.41999/12/12

['中國大陸']

['劇情', '歷史']

56459

13['李雪健', '李幼斌', '高明', '陳瑾', '滕汝駿', '張勇手', '劉琳', '陶海', '張國民', '李曉耕', '李勝源', '王星瀚', '王明智']

末代皇帝

9.31987/10/4

['英國', '義大利', '中國大陸', '法國']

['劇情', '傳記', '歷史']

725898

35['尊龍', '陳冲', '鄔君梅', '彼得·奧圖爾', '英若誠', '吳濤', '黃自強', '丹尼斯·鄧', '阪本龍一', '馬吉·漢', '里克·揚', '田川洋行', '苟杰德', '理查德·吳', '皺緹格', '陳凱歌', '盧燕', '區亨利', '陳述', '鮑皓昕', '黃文捷', '邵茹貞', '亨利·基', '張良斌', '梁冬', '康斯坦丁·格雷戈里', '黃漢琪', '王濤', '宋懷桂', '蔡鴻翔', '程淑豔', '張天民', '王彪', '勞力', '戶田惠子']

活著9.3

1994/5/17

['中國大陸', '中國香港']

['劇情', '歷史', '家庭']

709758

17['葛優', '鞏俐', '姜武', '牛犇', '郭濤', '張璐', '倪大紅', '肖聰', '董飛', '劉天池', '董立範', '黃宗洛', '劉燕瑾', '李連義', '楊同順', '蘇岩', '王麗華']

亂世佳人

9.31939/12/15

['美國']

['劇情', '歷史', '愛情', '戰爭']

600694

37['費雯·麗', '克拉克·蓋博', '奧利維婭·德哈維蘭', '托馬斯·公尺切爾', '芭芭拉·歐內爾', '伊夫林·凱耶斯', '安·盧瑟福德', '喬治·裡弗斯', '弗萊德·克萊恩', '海蒂·麥克丹尼爾斯', '奧斯卡·波爾克', '巴特弗萊·麥昆', '維克托·喬里', '埃弗雷特·布朗', '霍華德·c·希克曼', '艾麗西亞·瑞特', '萊斯利·霍華德', '蘭德·布魯克斯', '卡洛爾·奈', '蘿拉·霍普·克魯斯', '埃迪·安德森', '哈里·達文波特', '利昂娜·羅伯特', '簡·達威爾', '歐娜·滿森', '保羅·赫斯特', '伊莎貝爾·朱爾', '卡公尺·金·肯倫', '艾瑞克·林登', 'j·m·克里根', '沃德·邦德', '莉蓮·肯布林-庫珀', '李守貞', '唐燁', '吳文倫', '查曼若', '彭河']

永不消逝的電波(舞劇)

9.32020/5/14

['中國大陸']

['歷史', '歌舞']

1266

2['朱潔靜', '王佳俊']

無言的山丘

9.21992/12/5

['中國台灣']

['劇情', '歷史']

14731

9['楊貴媚', '黃品源', '澎恰恰', '文英', '陳仙梅', '任長彬', '許傑輝', '陸弈靜', '陳博正']

戰爭與和平

9.21966/3/14

['蘇聯']

['劇情', '歷史', '愛情', '戰爭']

9668

43['謝爾蓋·邦達爾丘克', '柳德公尺拉·薩維裡耶娃', '維亞切斯拉夫·吉洪諾夫', '安娜斯塔西亞·維爾金斯卡婭', '安東寧娜·舒拉諾娃', '鮑里斯·扎哈瓦', '阿納托利·克托羅夫', '奧列格·塔巴科夫', '維克托·斯坦尼岑', '伊琳娜·斯科布采娃', '瓦西里·蘭諾沃依', '琪拉·戈洛夫科', '伊琳娜·古巴諾娃', '亞歷山卓·費·鮑里索夫', '奧列格·葉甫列莫夫', '朱利·喬霍涅利澤', '弗拉季斯拉夫·斯特爾熱利奇克', '安格林娜·斯捷潘諾娃', '尼古拉·特羅菲莫夫', '尼古拉·雷布尼科夫', '愛德華·馬爾採維奇', '葉蓮娜·佳普金娜', '諾娜·莫爾久科娃', '彼得·薩溫', '謝苗·斯瓦申科', '謝爾蓋·尼科年科', '丹尼爾·涅特列賓', '阿列克謝·格拉濟林', '伊萬·熱瓦戈', '加琳娜·克拉夫琴科', '尼古拉·格林科', '斯坦尼斯拉夫·切坎', '列夫·波利亞科夫', '傑瑪·菲爾索娃', '安德烈·斯公尺爾諾夫', '亞歷山卓·斯公尺爾諾夫', '尼古拉·布勃諾夫', '喬治·公尺利亞爾', '羅季翁·亞歷山德羅夫', '伊婭·阿列比娜', '瑪麗亞·卡普尼斯特', '尼古拉·庫圖佐夫', '尼基塔·公尺哈爾科夫']

......

......

......

......

爬取豆瓣電影推薦排行榜

import requests from bs4 import beautifulsoup class dianying def html url self,url html requests.get url soup beautifulsoup html.text,lxml pai soup.se...

python爬蟲入門 豆瓣電影排行榜top250

1.requests 2.re 正規表示式庫 請求頭 此處複製的火狐瀏覽器請求頭 myheader 標記電影次序 time,初始化為1 排行榜第i頁 link str i 25 正則匹配結果 matchobj import requests import re def get movies 請求頭 ...

python爬取豆瓣電影排行榜資料

電影推薦 豆瓣電影排行榜資料抓取 目標 目標資料描述 1 排名 2 電影名字 3 鏈結 4 導演人員 5 評價 6 評分 7 評價人數 8 評價內容 篩選資訊 def get top url respose requests.get url,headers headers soup beautifu...