selenium 爬蟲爬取京東商城商品資訊

看完用selenium爬取**商品資訊的網課，於是乎想著自己也整乙個selenium程式來爬取京東以作鞏固。寫了幾個小時的**，通過不斷除錯，學到了很多細節上的處理，完整**在下方，使用時修改搜尋的引數就可以開始爬取了，事先要安裝goole chrome的驅動。最終爬取的結果儲存在了products陣列中，需要新增其他處理時，直接在程式最後使用陣列來呼叫爬取的結果。執行結果不展示了，就是把資訊輸出出來，因為要等待網頁載入，所以執行時間有點久。

from selenium import webdriver
import time
defsearch_product
(key)
:#向搜尋框輸入內容 
driver.find_element_by_id(
'key'
).send_keys(key)
defclick_search()
:#搜尋按鈕 
driver.find_element_by_class_name(
'button'
).click(
)def
pagenum()
:#獲取總的頁數 
pagenum=driver.find_element_by_class_name(
'p-skip'
).text 
return pagenum[1:
-10]def
page_next()
: page=driver.find_element_by_class_name(
'pn-next'
) 
page.click(
)if __name__==
'__main__'
: 
products=
count=
0 
url=
"" 
driver=webdriver.chrome(
) 
driver.get(url) 
search_product(
'特崙蘇'
) 
driver.maximize_window(
) 
click_search(
) 
time.sleep(3)
#程序掛起3秒，等待視窗載入完成,未載入完成會導致爬取的資料不全，或者元素無法定位 
driver.execute_script(
"window.scrollby(0, 8000)"
)#下拉滾動條以使網頁中的全部商品資訊載入，不下拉進度條，下半部分資訊不顯示 
time.sleep(1)
while
(count<
int(pagenum())
): 
products_info=driver.find_elements_by_xpath(
'//div[@class = "gl-i-wrap"]'
)for div in products_info: 
name=div.find_element_by_xpath(
'.//div[@class="p-name p-name-type-2"]'
)#商品名稱 
price=div.find_element_by_xpath(
'.//div[@class="p-price"]//i'
)#** 
shop=div.find_element_by_xpath(
'.//div[@class="p-shop"]'
)#店鋪名稱 
commit=div.find_element_by_xpath(
'.//div[@class="p-commit"]//a'
)#評價 
(name.text,price.text+
'元',shop.text,commit.text+
)) 
pagenum=count+
1print
('第'
+str
(pagenum)
+'頁已提取，共'
+pagenum()+
'頁') 
page_next(
) 
time.sleep(
3) 
driver.execute_script(
"window.scrollby(0, 8000)"
) 
time.sleep(
1) 
count+=
1 
driver.quit(
)print
(products)

selenium 爬蟲爬取京東商城商品資訊

selenium爬取京東商品

selenium爬取京東商品名與價格

利用Python爬蟲爬取京東（小規模）

selenium 爬蟲爬取京東商城商品資訊

selenium爬取京東商品

selenium爬取京東商品名與價格

利用Python爬蟲爬取京東（小規模）

相關推薦