python爬蟲爬取豆瓣電影資訊

我們準備使用python的requests和lxml庫，直接安裝完之後開始操作

目標爬取肖申克救贖資訊->傳送門

導入庫

import requests
from lxml import etree

給出鏈結

url=『

獲取網頁html前端**一行搞定，在requests中已經封裝好了

data = requests.get(url).text

s = etree.html(data)

然後我們到豆瓣中獲取需要爬取資料的xpath

右鍵->copy->xpath我們就拿到了這樣的一串資料

//*[@id="content"]/h1/span[1]

然後我們獲取資料內容

film = s.xpath('//*[@id="content"]/h1/span[1]/text()')

注意最後面的/text()是獲取文字型別的資料不然會出錯

最後直接print(film)即可

完整**如下

import requests
from lxml import etree
url = '' # 定義url
data = requests.get(url).text # 獲取全部html
s = etree.html(data)
film = s.xpath('//*[@id="content"]/h1/span[1]/text()')
print(film)

接下來我們想爬取主演

在演員上右鍵copy -> copy xpath

我們會有這樣一串xpath

//*[@id="info"]/span[3]/span[2]/span[1]/a
//*[@id="info"]/span[3]/span[2]/span[2]/a
//*[@id="info"]/span[3]/span[2]/span[3]/a
……

我們發現這一組xpath似乎是封裝在乙個大的span標籤陣列之中，所以我們直接取拿span[2]裡面的a/text()

actor = s.xpath('//*[@id="info"]/span[3]/span[2]/a/text()')

我們獲得了以下的執行結果，直接可以獲取列表中的全部標籤（刪去最後的span陣列和a標籤）之後我們可以直接拿到當前頁面的所有的電影名稱。

這裡需要注意，因為當前我們聯絡的豆瓣網頁中所有的電影的標籤都是封裝在

Python爬蟲爬取豆瓣電影（二）

檢視上乙個專案，請看上乙個專案中獲取到了一定數量的電影url資訊，這次來獲取單個電影的電影詳情。對傳遞的url返回乙個名為soup的beautifulsoup物件 defget url html soup url header request body.get header proxies req...

爬蟲豆瓣電影爬取案例

直接上僅供參考。目標爬取資料是某地區的正在上映部分的資料，如下圖完整如下 usr bin python coding utf 8 from lxml import etree import requests 目標爬取豆瓣深圳地區的正在上映部分的資料注意點 1 如果網頁採用的編碼方式...

Python爬蟲之爬取豆瓣電影（一）

最近閒來無事學習python爬蟲，爬取豆瓣電影開啟豆瓣電影按f12 重新整理豆瓣網頁，會發現network的xhr中有鏈結貼上出鏈結會出現如下json 說明這個是每個分類電影的標籤，是乙個get請求的api，如果在python中載入成字典，則包含以惡個tags，對應的值是乙個列表，裡面的每...

python爬蟲爬取豆瓣電影資訊

Python爬蟲 爬取豆瓣電影（二）

爬蟲 豆瓣電影爬取案例

Python爬蟲之爬取豆瓣電影（一）

相關推薦

Python爬蟲爬取豆瓣電影（二）

爬蟲豆瓣電影爬取案例