東方財富網 股吧論壇帖子資訊採集

2021-08-20 16:21:55 字數 1917 閱讀 2971

參考**:

**如下:

import requests

from bs4 import beautifulsoup

import time

import csv

import re

#複製請求頭

'accept-encoding':'gzip,deflate',

'accept-language':'zh-cn,zh;q=0.9',

'cache-control':'max-age=0',

'connection':'keep-alive',

'cookie':'st_pvi=87732908203428;st_si=12536249509085;qgqp_b_id=9777e9c5e51986508024bda7f12e6544;_adsame_fullscreen_16884=1',

'host':'guba.eastmoney.com',

'referer':'list,600596,f_1.html',

'upgrade-insecure-requests':'1',

#設定資料儲存方式,csv**寫入

f = open('dfcw.csv','a',newline='')

w = csv.writer(f)

#獲取帖子詳細時間,列表也沒有年份,可以作為獲取帖子其他詳細內容的通用方法

def get_time(url):

try:

q = requests.get(url,headers=head)

soup = beautifulsoup(q.text,'html.parser')

ptime = soup.find('div',).get_text()

ptime = re.findall(r'\d-\d-\d \d:\d:\d',ptime)[0]

print(ptime)

return ptime

except:

return ''

#獲取列表頁第n頁的具體目標資訊,由beautifulsoup解析完成

def get_urls(url):

baseurl = ''

q = requests.get(url,headers=head)

soup = beautifulsoup(q.text,'html.parser')

urllist = soup.findall('div',)

print(len(urllist))

for i in urllist:

if i.find('a') != none:

try:

detailurl = i.find('a').attrs['href'].replace('/','')

print(detailurl)

titel = i.find('a').get_text()

yuedu = i.find('span',).get_text()

pinlun = i.find('span', ).get_text()

ptime = get_time(baseurl+detailurl)

w.writerow([detailurl,titel,yuedu,pinlun,ptime])

print(baseurl + detailurl)

except:

pass

#迴圈所有頁數

for i in range(1,101):

print(i)

get_urls('list,600596,f_'+str(i)+'.html')

測試結果:

小結:總的來說是乙個比較簡單的例子,帖子詳情並沒有採集,但是更新具體時間時已經進行了子鏈結的請求,可以順便輸出帖子的內容資料。

**yqxmf.top

東方財富筆試

4月14號下午4點去了位於龍田路190號的東方財富面試 先給你整一套分別是基本題,資料庫題,軟體開發題共6頁的題目讓你先做 1.求下圖有幾個正方形 2.求乙個abcd中的數 3.求10的階乘,用兩種方法 4.c 題目有區域性變數和全域性變數能否同名 float的判斷 列舉多執行緒的同步機制 一道子類...

東方財富期權行情介面

東方財富商品期權 頁面上期所 大商所鄭商所 可以看出1558007687045和1558007687072為時間戳,p引數為頁碼,ps引數為分頁大小,要想一次呼叫查出全部資料則p設為1,ps設為乙個較大的數 大於全部合約總數 獲取到的資料如下 以下是我用python寫的獲取資料的 import ti...

東方財富 自動止損程式

自動止損,加乙個5秒執行的迴圈語句,自動止損。下週跑跑看。usr bin env python encoding utf 8 author 東哥加油 self.zqdm zqdm 編碼 self.zqmc zqmc 名稱 self.zqsl int zqsl 持倉數量 self.kysl int k...