Python爬取豆瓣Top250

2021-10-25 18:43:58 字數 1846 閱讀 9414

from selenium import webdriver

import requests

import time

import os

url =

''driver = webdriver.

chrome

('c:\chromedriver_win32\chromedriver.exe'

)driver.

get(url)

file1 =

open

(r"c:\users\18321\desktop\2020python\doubantop250name.txt"

,"w"

)path=r'c:\users\18321\desktop\2020python'

#儲存的資料夾名稱及路徑

dir_name =

'./doubantop250picture'

#os包建立乙個資料夾

if not os.path.

exists

(dir_name)

: os.

mkdir

(path+dir_name)

#通過for迴圈網頁,儲存所以的資訊

for x in

range(10

):#找到名字儲存資訊的位置,通過xpath儲存

lis = driver.

find_elements_by_xpath

('//ol[@class="grid_view"]/li'

) #所以的資訊都儲存到了xpath,在用迴圈去找裡面的資訊

for li in lis:

#名稱儲存在乙個屬性為title的span盒子裡

span = li.

find_elements_by_xpath

('.//span[@class="title"]')[

0]#轉換為文字資訊

title = span.text

print

(title)

#將名稱儲存的指定的txt文件中再換行

file1.

write

(title+

'\r\n'

) file1.close

#鏈結儲存在了乙個屬性為pic的div內

img = li.

find_element_by_xpath

('.//div[@class="pic"]//img'

) src = img.

get_attribute

('src'

)# print

(src)

picture_name = src.

split

('/')[

-1] reponse = requests.

get(src)

#通過os和with open 將儲存到乙個資料夾內

with

open

(dir_name+

'/'+picture_name,

'wb'

)as f:

f.write

(reponse.content)

next = driver.

find_elements_by_xpath

('//span[@class="next"]/a')if

len(next)

>0:

next[0]

.click()

time.

sleep(1

)driver.

quit

()

python練習簡單爬取豆瓣網top250電影資訊

因為有的電影詳情裡沒有影片的又名,所以沒有爬取電影的又名。基本思路 爬取top250列表頁展示中電影的排行榜排名,電影詳情鏈結,電影名稱。然後通過電影鏈結進入到詳情頁,獲取詳情頁的原始碼,再進行爬取,爬取後的資料儲存在字典中,通過字典儲存在mongo資料庫中的。from urllib.request...

爬蟲教程 用Scrapy爬取豆瓣TOP250

文章首發於 guanngxu 的個人部落格 用scrapy爬取豆瓣top250 最好的學習方式就是輸入之後再輸出,分享乙個自己學習scrapy框架的小案例,方便快速的掌握使用scrapy的基本方法。本想從零開始寫乙個用scrapy爬取教程,但是官方已經有了樣例,一想已經有了,還是不寫了,盡量分享在網...

Python小爬蟲 抓取豆瓣電影Top250資料

寫leetcode太累了,偶爾練習一下python,寫個小爬蟲玩一玩 比較簡單,抓取豆瓣電影top250資料,並儲存到txt 上傳到資料庫中。通過分析可以發現,不同頁面之間是有start的值在變化,其他為固定部分。以物件導向的編碼方式編寫這個程式,養成好的編碼習慣。基本資訊在 init 函式中初始化...