問財網爬蟲

2021-10-07 18:41:59 字數 1607 閱讀 6364

問財網每乙個的爬蟲的數目不一樣,頁數不一樣,難度比較大

from selenium import webdriver

from selenium.webdriver.common.by import by

from selenium.webdriver.common.keys import keys

from pandas import dataframe

import pandas as pd

import numpy as np

import re

import time

browse=webdriver.chrome() #開啟chrome

a='漲停&queryarea='

browse.get(a) #開啟問財網

def page(n):

page_n=dataframe()

name=

for i in range(n):

try:

mm=''.format(i+1)

browse.get(mm)

#print(aaaa)

#df_page=wed(mm)

whe=browse.find_element_by_xpath('//*[@id="qinfo"]/div[1]/div/div[1]/div').text #獲取日期和每天有多少條資料,資料為"2023年9月30日的漲停 (21 個)"

except:

pass

return dataframe ,name

b1=page(30)

b2=np.array(b1) #改變資料格式

b3=pd.series(b2)

b4=b3[1]

b5=for i in range(30):

b6=for i in range(30):

b7=for i in range(30):

b8=for i in range(30):

b9=for i in range(30):

b10=

for i in range(30):

b11=pd.series(b10)

b11# b11[27]=69 #將 14、28天設為69、也就是一頁

知網專利爬蟲

最近需要爬取知網專利的資料,時間限定為2014年。一番折騰以後,發現知網反爬蟲非常嚴重。幾經研究,最後還是鼓搗了出來。專案github位址 知網專利檢索結果列表頁反爬蟲非常嚴格,仔細抓包分析以後,發現每次請求必須攜帶 嚴格的headers cookies 變化的 而且列表table是js載入出來的,...

爬蟲 拉勾網 selenium

使用selenium進行翻頁獲取職位鏈結,再對鏈結進行解析 會爬取到部分空列表,感覺是網速太慢了,加了time.sleep 還是會有空列表 1 from selenium import webdriver 2import requests 3importre4 from lxml import et...

python爬蟲之安裝PySpider問題

今天安裝pyspider時安裝不了,倒騰了一晚上終於解決了,學習效率有待改進。記錄如下。windows下pyspider安裝需提前安裝兩個檔案 lxml 和 wheel 安裝方法 cmd 命令列下 pip install lxml pip install wheel 但安裝lxml時一直報錯,命令列...