使用selenium實現乙個簡單的爬蟲

2021-10-11 18:16:07 字數 1350 閱讀 3694

使用selenium爬蟲**前2頁商品指定內容。

主要思想:

請求url,從原始碼中獲取指定selector,進行爬取。

import time

from selenium import webdriver

browser = webdriver.chrome()

browser.set_page_load_timeout(30)

# get 方法 開啟指定**

browser.get('')

# 選擇網頁元素

page_info = browser.find_element_by_css_selector('body > div.wrap > div.pagem.product_list_pager > div')

# print(page_info.text) #共 80 頁,每頁 24 條

# 獲取頁碼(80)

pages = page_info.text.split(' ')[1] # pages=80

# 例:range(3)=[0,1,2]

for page in range(int(pages)):

print(page)

if page > 2:

break

# 拼接獲取每一頁的位址

url = '' + str(page + 1)

browser.get(url)

# 滾動到底部(因是滾動後才會載入)

browser.execute_script("window.scrollto(0, document.body.scrollheight);")

time.sleep(3) # 不然會load不完整

goods = browser.find_element_by_css_selector('body > div.wrap > div:nth-child(2) > div.p_main > ul').find_elements_by_tag_name('li')

# print('d%頁有%d個商品' % ((page + 1), len(goods)))

for good in goods:

try:

title = good.find_element_by_css_selector('a:nth-child(1) > p:nth-child(2)')

price = good.find_element_by_css_selector('div > a > span')

print(title, price)

except:

print(good.text)

使用selenium寫乙個簡單的爬蟲登入郵箱

selenium使用過程比較簡單,完整 在最後 參考 參考 from selenium import webdriver import path import time 因為我的電腦不能設定環境變數,所以配置臨時環境變數,你已配置好,請忽略下面兩行 path str path.addpath d s...

使用Python的turtle庫畫乙個簡單的五角星

turtle庫是python的內建圖形化模板 可參考筆記或其他的資料 功能 五角星的繪製 import turtle defmain 主函式 count 1 while count 5 turtle.forward 100 向前走50 turtle.right 144 向右轉144度 count c...

使用兩個佇列實現乙個棧,使用兩個棧實現乙個佇列

一 棧與佇列的特點 一 棧 棧 一種特殊的線性表,其只允許在固定的一端進行插入和刪除元素操作。進行資料插入和刪除操作的一端稱為棧頂,另一端稱為棧底。不含任何元素的棧稱為空 棧,棧又稱為後進先出的線性表。棧的特點 後進先出 lifo 二 佇列 佇列 只允許在一端進行插入資料操作,在另一端進行刪除資料操...