Python 從0開始寫爬蟲 轉身扒豆瓣電影

2021-09-20 05:44:22 字數 1382 閱讀 9080

豆瓣就比較符合這個「明人不說暗話」的原則。所以我們扒豆瓣,不多說,直接上**

from scrapy import

import

reheader =

movie_url = "

"m_id = re.search("

[0-9]+

", movie_url).group()

#獲取soup物件

utf-8")

content = soup.find(id="

content")

#抓取電影名字和上映年份

m_name = content.find("

h1").find("

span

").string

m_year = content.find(class_="

year

").string

#抓取導演

info = content.find(id="

info")

m_directer = info.find(attrs=).string

#上映日期

m_date = info.find(attrs=).string#型別

types = info.find_all(attrs=, limit=2)

m_types =

for type_ in

types:

#抓取主演,只取前面五個

actors = info.find(class_="

actor

").find_all(attrs=, limit=5)

m_actors =

for actor in

actors:#片長

m_time = info.find(attrs=).string

#m_adaptor = info.select()

print("

id", m_id, "

名稱", m_name, "

年份 ", m_year, "

導演 ", m_directer, "主演"

, m_actors)

print("

上映日期

", m_date, "

型別", m_types, "

片長", m_time)

輸出:

id 26985127 名稱 一出好戲 年份  (2018) 導演  黃渤 主演 ['

黃渤', '

**', '

王寶強', '

張藝興', '

于和偉'

]上映日期 2018-08-10(中國大陸) 型別 ['

劇情', '

喜劇'] 片長 134分鐘

簡單粗暴

Python 從0開始寫爬蟲 小試身手

先寫個demo獲取資料,我不會做太多介紹,基本上都會寫在注釋裡。url為爬取的鏈結,headers主要是假裝我們不是爬蟲,現在我們就假裝我們是個chrome瀏覽器 response urllib.request.urlopen request 請求資料 data response.read 讀取返回...

Python從0開始 安裝

進入官網 選擇download downloads 直接選擇最新版本安裝。是exe檔案,直接下一步下一步,要勾選path.我為了方便在台式電腦和筆記本都安裝了 神奇的事情發生了,正常應該顯示 但是我在台式電腦上輸入測試正常,筆記本提示的是如下 python is not recognized as ...

從0開始Python 變數

變數是程式中乙個臨時存放資料的場所。在執行程式的時候變數是可以改變的,並且改變次數是不確定的。需要注意的是變數必須先定義才能使用。我們可以先定義乙個名字為a的變數 a 10 現在我們就定義了乙個名字為a的變數,這個變數所對應的資料為10。現在我們來列印這個變數,並利用type函式來獲取這個變數的資料...