如何用Python爬取豆瓣電影名?

2021-10-22 05:56:31 字數 1073 閱讀 1571

如今,人們生活水平逐漸提高,電影也成為人們生活娛樂的方式之一,沒事去電影院看看電影成為了很多人的首選。大家挑選電影時,都會參考個人喜好或是他人影評進行選擇,其中最常用的影評**就是豆瓣了。我們可以在豆瓣獲取高質量的電影名稱去選擇**,本文就教你如何用python爬蟲豆瓣電影名!

一、爬蟲豆瓣電影名思路分析

1、爬蟲**

headers = 2、獲取網路連線

res = requests.get(「 headers=headers)

第乙個引數就是**,要確保**能夠開啟,第二個引數就是**。

3、對**進行解析

soup = beautifulsoup(res.text, 『lxml』)

第乙個引數是**,字尾名".text"是將**原始碼轉換為文字,方便解析;

第二個引數是解析器,而lxml就是一種解析器,用來解析**。

4、匹配所有電影名所在的標籤

targets = soup.find_all(「div」, class_=「hd」)

5、使用簡單的for迴圈,輸出標籤中的電影名

for each in targets:

print(each.a.span.text)
迴圈輸出就可以了,但要注意轉換為文字,避免出現亂碼的情況。

二、爬蟲豆瓣電影名簡單**示例

import requests

from bs4 import beautifulsoup

ifname== 『main』:

headers = 

res = requests.get("", headers=headers)

print(res.status_code)

soup = beautifulsoup(res.text, 'lxml')

targets = soup.find_all("div", class_="hd")

for each in targets:

print(each.a.span.text

豆瓣熱門電影爬取

import requests import json import csv defgetonepagedata page start url headers params response requests.get start url,headers headers,params params i...

Python爬蟲 爬取豆瓣電影(二)

檢視上乙個專案,請看 上乙個專案中獲取到了一定數量的電影url資訊,這次來獲取單個電影的電影詳情。對傳遞的url返回乙個名為soup的beautifulsoup物件 defget url html soup url header request body.get header proxies req...

python爬蟲爬取豆瓣電影資訊

我們準備使用python的requests和lxml庫,直接安裝完之後開始操作 目標爬取肖申克救贖資訊 傳送門 導入庫import requests from lxml import etree 給出鏈結 url 獲取網頁html前端 一行搞定,在requests中已經封裝好了 data reque...