python3 豆瓣 電影名稱

2021-09-26 09:00:17 字數 4361 閱讀 5813

python3.7

python3 爬蟲 豆瓣 電影名稱

#!/usr/bin/python

# coding: utf-8

import requests

from bs4 import beautifulsoup #從bs4這個庫中匯入beautifulsoup

headers =

link = ''

r = requests.get(link, headers=headers, timeout=20)

print(str(1), "頁響應狀態碼:", r.status_code)

# print(r.text)

print (type(r.status_code))

if r.status_code is not 200:

exit(0)

soup = beautifulsoup(r.text, "lxml")

div_list = soup.find_all('div', class_='hd')

print ('##################\n')

print (div_list[0])

each = div_list[0]

print ('+++++++++++++++\n')

movie = each.a.span

print (movie)

movie_text = movie.text.strip()

print (movie_text)

print ('##################\n')

print (div_list[1])

each = div_list[1]

print ('+++++++++++++++\n')

movie = each.a.span

print (movie)

movie_text = movie.text.strip()

print (movie_text)

log:

c:\programdata\anaconda3\python.exe e:/python/work/ana_test/test.py

1 頁響應狀態碼: 200

##################

肖申克的救贖

/ the shawshank redemption

/ 月黑高飛(港) / 刺激1995(臺)

+++++++++++++++

肖申克的救贖

肖申克的救贖

##################

霸王別姬

/ 再見,我的妾 / farewell my concubine

+++++++++++++++

霸王別姬

霸王別姬

process finished with exit code 0

將 print(r.text)列印出來的 內容:

用 notepad ++,儲存到乙個 123.html資料夾中。

需要設定notepad++ 的中文編碼格式為 utf8 .

用 notepad ++ 開啟的時候 ,顯示的 是 能看懂的中文,而不是亂碼 才行。

儲存之後,雙擊 123.html 會在ie瀏覽器中 顯示如下效果。

提取電影英文名,港台名,導演,主演,上映年份,電影分類和評分

**如下:

#!/usr/bin/python

# coding: utf-8

import requests

from bs4 import beautifulsoup #從bs4這個庫中匯入beautifulsoup

headers =

link = ''

r = requests.get(link, headers=headers, timeout=20)

print(str(1), "頁響應狀態碼:", r.status_code)

# print(r.text)

print (type(r.status_code))

if r.status_code is not 200:

exit(0)

soup = beautifulsoup(r.text, "lxml")

div_info_list = soup.find_all('div',class_ = 'info')

print (div_info_list[0])

each = div_info_list[0]

title = each.find('div', class_='hd').a.span.text.strip()

print (title)

info = each.find('div', class_='bd').p.text.strip()

print ('-------------- 1 ---------------- \n')

print(info)

info = info.replace("\n", " ").replace("\xa0", " ")

print ('-------------- 2 ---------------- \n')

print(info)

info = ' '.join(info.split())

print ('-------------- 3 ---------------- \n')

print(info)

rating = each.find('span', class_='rating_num').text.strip()

num_rating = each.find('div', class_='star').contents[7].text.strip()

try:

quote = each.find('span', class_='inq').text.strip()

except:

quote = ""

print ('-------------- 4 ---------------- \n')

print ('title =', title)

print ('info = ', info)

print ('rating = ', rating)

print ('num_rating = ', num_rating)

print ('quote = ', quote)

執行結果:

c:\programdata\anaconda3\python.exe e:/python/work/ana_test/test.py

1 頁響應狀態碼: 200

肖申克的救贖

/ the shawshank redemption

/ 月黑高飛(港) / 刺激1995(臺)

導演: 弗蘭克·德拉邦特 frank darabont   主演: 蒂姆·羅蘋斯 tim robbins /...

1994 / 美國 / 犯罪 劇情

9.71559199人評價

希望讓人自由。

肖申克的救贖

-------------- 1 ----------------

導演: 弗蘭克·德拉邦特 frank darabont   主演: 蒂姆·羅蘋斯 tim robbins /...

1994 / 美國 / 犯罪 劇情

-------------- 2 ----------------

導演: 弗蘭克·德拉邦特 frank darabont 主演: 蒂姆·羅蘋斯 tim robbins /... 1994 / 美國 / 犯罪 劇情

-------------- 3 ----------------

導演: 弗蘭克·德拉邦特 frank darabont 主演: 蒂姆·羅蘋斯 tim robbins /... 1994 / 美國 / 犯罪 劇情

-------------- 4 ----------------

title = 肖申克的救贖

info = 導演: 弗蘭克·德拉邦特 frank darabont 主演: 蒂姆·羅蘋斯 tim robbins /... 1994 / 美國 / 犯罪 劇情

rating = 9.7

num_rating = 1559199人評價

quote = 希望讓人自由。

process finished with exit code 0

python3爬取豆瓣電影Top 250

爬取豆瓣電影top 250 排名 名字 作者 評語 1 匯入包 import requests from bs4 import beautifulsoup import re 2 傳送請求 headers res requests.get url,headers headers print res....

python豆瓣影評 python 豆瓣電影爬蟲

因為 的緣故,在家甚是無聊,想著可能會做乙個和資料分析相關的畢業設計,不如就提前準備一下資料。眼光一掃,就是你了,豆瓣!說起來很有意思,我最開始寫爬蟲就是從豆瓣開始的,現在又回來了。豆瓣,這世間所有的相逢都是久別重逢。好了,不皮了,開始正題。寫爬蟲之前,首先要明確乙個問題你需要什麼資料。先有目標,再...

python爬蟲 豆瓣電影

最近學習python 順便寫下爬蟲練手 爬的是豆瓣電影排行榜 python版本2.7.6 安裝 beautiful soup sudo apt get install python bs4 安裝 requests sudo apt get install python requests下面是py a...