爬蟲初嘗試易車網文章url爬取

目標**：news.bitauto.com/

選擇單項頁面爬取例如新車頁

在頁面右鍵選擇檢查

找到目標位置

/html/body/div[3]/div/div[1]/div[3]/div/div/h2/a （推薦使用xpath helper 可以直接複製xpath）

#coding: utf8
from selenium import webdriver
f=open("url6.txt","w",encoding="utf-8")
fw = open("news.txt", "w", encoding="utf-8")
def geturl(url,k):
driver.get(url)
urls = driver.find_elements_by_xpath('//div[@class="article-card horizon"]//a') #目標url存在於多個位置 可以選乙個方便找到的
url_list=
for url in urls:
u = url.get_attribute('href')
if u == 'none': 
continue
else:
url_list=list(set(url_list))
#print(url_list)
for new_url in url_list:
if(len(new_url)<2):
continue
if(new_url[-1]=='l'):
print(new_url)
f.write(new_url+"\n")
#if __name__ == '__main__':
#url= ''
a_list=[("xinche",4786)]
for t,am in a_list:
url = "" + t + "/?pageindex="
k=len(t)
for i in range(1, am):
new_url = url + str(i)
print(t," page:", i)
geturl(new_url,k)
f.close()
driver.close()

爬取煎蛋網文章

import os import requests from bs4 import beautifulsoup r1 requests.get url 瀏覽器的資訊 headers r1 cookie dict r1.cookies.get dict 去響應體中j解析我們想要的資料 soup bea...

簡單的爬蟲爬取文章

我們會用一些簡單的爬蟲去爬取等，那麼在別人的中我們的應選擇對應的標題等資料作為爬取的內容標桿如以下模擬瀏覽器發請求 connection connect jsoup.connect document doc connect.get elements select doc.select lis...

簡單爬蟲實現爬取URL

實驗室任務詳細寫乙個python指令碼,指令碼後面跟上乙個url的頁面。要求正則匹配爬蟲的方式，匹配該url網頁中的html的href標籤中的url，顯示這些url，一行乙個。首先明確什麼是 href 定義和用法標籤的 href 屬性用於指定超連結目標的 url。href 屬性的值可以是任何...

爬蟲初嘗試 易車網文章url爬取

爬取煎蛋網文章

簡單的爬蟲爬取文章

簡單爬蟲實現 爬取URL

相關推薦

爬蟲初嘗試易車網文章url爬取

簡單爬蟲實現爬取URL