爬取豆瓣正在上映的影片資訊

import requests
from lxml import etree
# 將目標**上的頁面抓取下來
# headers -> url -> requests -> response
# response.text 返回的是乙個經過解碼後的字串，是str（unicode）型別
# response.content 返回的是乙個原生的字串，就是從網頁上抓取下來的，沒有經過處理的字串，是bytes型別
headers = 
url = ''
response = requests.get(url,headers=headers)
text = response.text
# 將抓取下來的資料根據一定的規則進行提取
html = etree.html(text,parser=etree.htmlparser()) # parser html解析器
ul = html.xpath("//ul[@class='lists']")[0] # 獲取屬性為lists的ul標籤內容，因為正在上映和即將上映是一樣的，所以取列表的第乙個元素，即正在上映的ul
lis = ul.xpath("./li") # 獲取ul標籤下的li標籤(每部影片在乙個li標籤下面)
movies = 
for li in lis:
title = li.xpath("@data-title")[0] # xpath返回的是乙個列表 影片名字
score = li.xpath("@data-score")[0] # 影片評分
release_time = li.xpath("@data-release")[0] # 上映時間
time = li.xpath("@data-duration")[0] # 影片時長
region = li.xpath("@data-region")[0] # 製片國家地區
director = li.xpath("@data-director")[0] #導演
actors = li.xpath("@data-actors")[0] #主演
category = li.xpath("@data-category")[0] #上映型別
image = li.xpath(".//img/@src")[0] # 鏈結
movie = 
for movie in movies:
for value in movie.values():
print(value + "||",end="")
print()

爬取豆瓣網電影資訊

coding utf 8 import urllib2 import bs4 from bs4 import beautifulsoup 爬取豆瓣網電影簡介，包括電影名，導演，評分以及介紹等 class dbtop def init self self.usr agent mozilla 5.0 w...

python爬蟲爬取豆瓣電影資訊

我們準備使用python的requests和lxml庫，直接安裝完之後開始操作目標爬取肖申克救贖資訊傳送門導入庫import requests from lxml import etree 給出鏈結 url 獲取網頁html前端一行搞定，在requests中已經封裝好了 data reque...

控制流程，爬取豆瓣電影資訊

if 條件判斷 if 條件成立，執行 1，條件不成立，執行 2 1else 2age 19 if age 18 print 你已經成年了！雙分支結構 age 19 if age 18 print 成年 else print 未成年如果成績 90，列印優秀如果成績 80 並且成績 90，列...

爬取豆瓣正在上映的影片資訊

爬取豆瓣網電影資訊

python爬蟲爬取豆瓣電影資訊

控制流程，爬取豆瓣電影資訊

相關推薦