python爬蟲爬取豆瓣電影資訊

2021-09-19 13:51:20 字數 1466 閱讀 3408

我們準備使用python的requests和lxml庫,直接安裝完之後開始操作

目標爬取肖申克救贖資訊->傳送門

導入庫

import requests

from lxml import etree

給出鏈結

url=『
獲取網頁html前端**一行搞定,在requests中已經封裝好了

data = requests.get(url).text
s = etree.html(data)
然後我們到豆瓣中獲取需要爬取資料的xpath

右鍵->copy->xpath我們就拿到了這樣的一串資料

//*[@id="content"]/h1/span[1]
然後我們獲取資料內容

film = s.xpath('//*[@id="content"]/h1/span[1]/text()')
注意最後面的/text()是獲取文字型別的資料不然會出錯

最後直接print(film)即可

完整**如下

import requests

from lxml import etree

url = '' # 定義url

data = requests.get(url).text # 獲取全部html

s = etree.html(data)

film = s.xpath('//*[@id="content"]/h1/span[1]/text()')

print(film)

接下來我們想爬取主演

在演員上右鍵copy -> copy xpath

我們會有這樣一串xpath

//*[@id="info"]/span[3]/span[2]/span[1]/a

//*[@id="info"]/span[3]/span[2]/span[2]/a

//*[@id="info"]/span[3]/span[2]/span[3]/a

……

我們發現這一組xpath似乎是封裝在乙個大的span標籤陣列之中,所以我們直接取拿span[2]裡面的a/text()

actor = s.xpath('//*[@id="info"]/span[3]/span[2]/a/text()')
我們獲得了以下的執行結果,直接可以獲取列表中的全部標籤(刪去最後的span陣列和a標籤)之後我們可以直接拿到當前頁面的所有的電影名稱。

這裡需要注意,因為當前我們聯絡的豆瓣網頁中所有的電影的標籤都是封裝在

Python爬蟲 爬取豆瓣電影(二)

檢視上乙個專案,請看 上乙個專案中獲取到了一定數量的電影url資訊,這次來獲取單個電影的電影詳情。對傳遞的url返回乙個名為soup的beautifulsoup物件 defget url html soup url header request body.get header proxies req...

爬蟲 豆瓣電影爬取案例

直接上 僅供參考。目標爬取資料是某地區的 正在上映 部分的資料,如下圖 完整 如下 usr bin python coding utf 8 from lxml import etree import requests 目標 爬取豆瓣深圳地區的 正在上映 部分的資料 注意點 1 如果網頁採用的編碼方式...

Python爬蟲之爬取豆瓣電影(一)

最近閒來無事 學習python爬蟲,爬取豆瓣電影 開啟豆瓣電影 按f12 重新整理豆瓣網頁,會發現network的xhr中有鏈結 貼上出鏈結 會出現如下json 說明這個是每個分類電影的標籤,是乙個get請求的api,如果在python中載入成字典,則包含以惡個tags,對應的值是乙個列表,裡面的每...