爬蟲 爬取天天基金網的公司資訊

2021-10-08 06:53:35 字數 2357 閱讀 3190

# -*- coding: utf-8 -*-

import requests

import parsel

import re

import pandas as pd

deftiantianjijin_main()

:# 設定要爬取的url及headers, headers表明該:瀏覽器、 系統win10 64位、 browser核心

base_url =

''headers =

# 請求url的全部內容,請求成功返回200

response = requests.get(url=base_url, headers=headers)

# print(response)

# 設定顯示中文,並獲取全部html資料

html_data = response.text

# print(html_data)

# 設定請求資料的selector,方便後續進行過資料分析與處理

selector = parsel.selector(html_data)

# result_list = selector.xpath('//tr[@class]').getall()

result_list = selector.xpath(

'//tr[@class]'

)# print(len(result_list))

# print(result_list[1])

# 資料處理與儲存

cnt =

100# 設定想要獲取的公司數量

i =0 company_info_list =

for one_result in result_list:

company_info_temp =

# company_name = one_result.xpath('//td[@class="td-align-left"]').get()

company_name = one_result.xpath(

'./td[@class="td-align-left"]/a[@href]'

).get(

) company_scale = one_result.xpath(

'./td[@class="scale number "]/p[@class="td-gm"]'

).get(

)if company_name is

none

:continue

# print(company_name)

# print(company_scale)

# 篩選公司名稱與規模scale

company_name = re.findall(r'.html">(.*)'

, company_name)[0

].strip(

) company_scale = re.findall(r'(.*), company_scale)[0

].strip(

)print

(company_name)

print

(company_scale)

i +=

1if i >= cnt:

break

# 把公司名稱及規模寫入excel檔案

df = pd.dataframe(company_info_list, columns=

['company_name'

,'company_scale'

], index=

list

(range(1

,len

(company_info_list)+1

)))#index行數預設從0開始,改為從1開始,method 1

# df = pd.dataframe(company_info_list, columns=['company_name', 'company_scale']) #index行數預設從0開始,改為從1開始,method 2

# df.index += 1

df.to_excel(

"tiantianjijin.xlsx"

, index=

true

)print

(company_info_list)

print

('tiantianjijin completed.'

)if __name__ ==

'__main__'

: tiantianjijin_main(

)

結果:

python爬蟲 爬取豆瓣網電影資訊

豆瓣網 如下 import requests import urllib.request if name main 指定ajax get請求的url 通過抓包進行獲取 url 定製請求頭資訊,相關的頭資訊必須封裝在字典結構中 headers import requests import urllib...

爬蟲爬取趕集網租房資訊

如下 示例 import scrapy import numpy as np import pandas as pd import matplotlib.pyplot as plt 如下 示例 terminal 終端實現 cd 跳轉到上一層目錄 scrapy startproject booktop...

初級爬蟲 爬取拉勾網職位資訊

主要用到的庫 requests 1.原始url位址,我們檢視網頁源 發現裡面並沒有我們想要的職位資訊,這是因為拉勾網有反爬蟲機制,它的職位資訊是通過ajax動態載入的。2.我們按下f12,找到network 在左側name中找到 positionajax.json?needaddtionalresu...