python爬蟲入門(3)

2021-10-19 14:26:23 字數 805 閱讀 4837

對於top250,一般的爬蟲可以解決,但是在最新&熱門電影的爬取時則出現了問題:

import requests

xp = etree.

html

(resp.text)

actor = xp.

xpath()

print

(actor)

y = xp.

xpath()

print

(y)

結果為空,爬了個寂寞。

會到網頁發現目標問題的源**不在網頁的**裡,查詢不到。

在開發者工具裡可以發現,url在這裡:

所以把這個url弄到**裡,看看data有哪些:

import requests

from lxml import etree

headers =

url =

''resp = requests.

get(url,headers = headers)

.json()

for data in resp[

'data']:

print

(data[

'directors'][

0],','

.join

(data[

'casts'])

)print

('\n'

)

現在就ok了

注意.json可以使輸出更規範,而且可以根據data裡面的引數,以data[x]的形式輸出內容(類似於字典或者數學函式)

python3 爬蟲入門

這裡爬取貓眼電影 top100 榜的資訊,作為學習的第乙個demo。今天開始接觸的python,從爬蟲開始。語言相對來說比較簡單,環境配置到是花了不少時間。有個要注意的點是在引入beautifursoup庫的時候會報錯,因為3.x的庫需要引入的是beautifursoup4.到這一步環境配置基本上o...

python3爬蟲入門

pip install requests2 匯入requests import requests 3 requests方法 requests.get 獲取html網頁的主要方法,對應http的get4 獲取流程 url 使用get方法獲取資料,返回包含網頁資料的response響應,超時時間測試 r...

Python3爬蟲入門 一

python3爬蟲入門 在瀏覽器的位址列輸入url位址,在網頁處右鍵單擊,找到檢查。不同瀏覽器的叫法不同,chrome瀏覽器叫做檢查,firefox瀏覽器叫做檢視元素,但是功能都是相同的 可見即可爬 技術上 違法的 擦邊球 一 url 專業一些的叫法是統一資源定位符 uniform resource...