爬蟲 豆瓣電影爬取案例

2021-10-11 18:05:27 字數 1138 閱讀 1494

直接上**,僅供參考。

目標爬取資料是某地區的「正在上映」部分的資料,如下圖:

完整**如下:

#!/usr/bin/python

# -*- coding:utf-8 -*-

from lxml import etree

import requests

"""目標:爬取豆瓣深圳地區的"正在上映"部分的資料

注意點:

1、如果網頁採用的編碼方式與預設猜測的不同,就會出現解碼失敗,需要手動解碼

2、xpath解析方法

"""headers =

url = ""

response = requests.get(url, headers=headers)

text = response.text

# 如果網頁採用的編碼方式與預設猜測的不同,就會出現解碼失敗,需要手動解碼

# text = response.content.decode('utf-8')

# 解析資料

html = etree.html(text)

# "正在上映"的電影

ul = html.xpath("//ul[@class='lists']")[0]

# print(etree.tostring(ul, encoding='utf-8').decode('utf-8'))

lis = ul.xpath("./li")

movies =

for li in lis:

# 如果不加[0],則結果為乙個列表;加了[0],結果為乙個字串

title = li.xpath("@data-title")[0] # 標題 獲取屬性值

score = li.xpath("@data-score")[0] # 評分 獲取屬性值

image = li.xpath(".//img/@src")[0] # 電影海報鏈結 //表示當前路徑下的所有子孫,而不是直接子孫

movie =

print(movies)

Python爬蟲 爬取豆瓣電影(二)

檢視上乙個專案,請看 上乙個專案中獲取到了一定數量的電影url資訊,這次來獲取單個電影的電影詳情。對傳遞的url返回乙個名為soup的beautifulsoup物件 defget url html soup url header request body.get header proxies req...

python爬蟲爬取豆瓣電影資訊

我們準備使用python的requests和lxml庫,直接安裝完之後開始操作 目標爬取肖申克救贖資訊 傳送門 導入庫import requests from lxml import etree 給出鏈結 url 獲取網頁html前端 一行搞定,在requests中已經封裝好了 data reque...

爬蟲爬取豆瓣電影寫入csv

小白flag10 爬蟲爬取豆瓣電影寫入csv json化 csv檔案操作學習 import requests import json from requests.packages.urllib3.exceptions import insecurerequestwarning 解決警告 class ...