爬蟲初嘗試 易車網文章url爬取

2021-09-25 04:24:23 字數 1329 閱讀 4495

目標**:news.bitauto.com/

選擇單項頁面爬取 例如新車頁

在頁面右鍵選擇 檢查 

找到目標位置

/html/body/div[3]/div/div[1]/div[3]/div/div/h2/a  (推薦使用xpath helper 可以直接複製xpath)

#coding: utf8

from selenium import webdriver

f=open("url6.txt","w",encoding="utf-8")

fw = open("news.txt", "w", encoding="utf-8")

def geturl(url,k):

driver.get(url)

urls = driver.find_elements_by_xpath('//div[@class="article-card horizon"]//a') #目標url存在於多個位置 可以選乙個方便找到的

url_list=

for url in urls:

u = url.get_attribute('href')

if u == 'none':

continue

else:

url_list=list(set(url_list))

#print(url_list)

for new_url in url_list:

if(len(new_url)<2):

continue

if(new_url[-1]=='l'):

print(new_url)

f.write(new_url+"\n")

#if __name__ == '__main__':

#url= ''

a_list=[("xinche",4786)]

for t,am in a_list:

url = "" + t + "/?pageindex="

k=len(t)

for i in range(1, am):

new_url = url + str(i)

print(t," page:", i)

geturl(new_url,k)

f.close()

driver.close()

爬取煎蛋網文章

import os import requests from bs4 import beautifulsoup r1 requests.get url 瀏覽器的資訊 headers r1 cookie dict r1.cookies.get dict 去響應體中j解析我們想要的資料 soup bea...

簡單的爬蟲爬取文章

我們會用一些簡單的爬蟲去爬取 等,那麼在別人的 中我們的應選擇對應的標題等資料作為爬取的內容標桿 如以下 模擬瀏覽器發請求 connection connect jsoup.connect document doc connect.get elements select doc.select lis...

簡單爬蟲實現 爬取URL

實驗室任務詳細 寫乙個python指令碼,指令碼後面跟上乙個url的 頁面。要求 正則匹配爬蟲的方式,匹配該url網頁中的html的href標籤中的url,顯示這些url,一行乙個。首先明確什麼是 href 定義和用法 標籤的 href 屬性用於指定超連結目標的 url。href 屬性的值可以是任何...