Python資料分析與處理 一

2022-09-21 10:24:13 字數 1497 閱讀 9919

目錄

前言:為了幫助廣大考生和家長了解高考歷年的錄取情況,很多**都彙總了各省市的錄取控制分數線,為廣大考生填報志願提供參考。因受多種因素影響,每年的分數線或多或少會有一些變動。採集北程式設計客棧京2006-2023年的資訊。使用python的pandas庫完成以下資料分析。

包含三部分內容:從**爬取,如何爬取,爬取的結果

**:import pandas as pd

import numpy as np

data=pd.read_excel("scores.xlsx",header=1)

print(data)

執行結果:

分析:我是讀取的本地的資料檔案進行的資料分析。

有興趣的話可以從**上面**相關的資料或者是自己使用爬蟲爬取相關的資料來源。進行資料分析

這個資料的分析部分我主要是採用的是pandas numpy做資料的預處理。

和matplotlib進行資料的視覺化展示。

mindata= data.groupby(['文科','理科'程式設計客棧], as_index=false).min(axis=1)

maxdata= data.groupby(['文科','理科'], as_index=false).max(axis=2)

print(data.min())

print(data.max())

進行資料的處理,最高分最低分統計,因為有兩個不同的年份的成績,並且分了文科和理科所以就有2個文科2個理科

**:s1math=data["一本分數線","理科"]

print(s1math)

print(s1math[0]-s1math[2])

s1c=data["一本分數線","文科"]

print(s1c[0]-s1c[2])

s2math=data["二本分數線","理科"]

print(s2math[0]-s2math[2])

s2c=data["二本分數線","文科"]

print(s2math[0]-s2math[2])

執行結果:

注意:首先我們取出相應的文理科一本以及二本的成績,然後再進行相關的極差的計算就是使用前乙個數減去後面的乙個數就ok。

print(s1math[0]-s1math[2])

**:# 2006—2023年近14年每科分數線的平均值統計

data1=data[data['unnamed: 0'].betwewww.cppcns.comen(2006, 2014, inclusive=true)].groupby(['unnamed: 0']).mean()

print(data1)

執行結果:

首先是進行資料的提取,然後進行平均值的求取。在這裡我算的麻煩了,因為本來就是乙個年份對應的是乙個成績。不是一對多的關係,所程式設計客棧以下面的方法要更好一些。

也可以使用mean方法進行相關的平均值求取。

是乙個成績。不是一對多的關係,所以下面的方法要更好一些。

也可以使用mean方法進行相關的平均值求取。

Python文字資料分析與處理

分詞 過濾停用詞 tf idf得到摘要資訊或者使用lda主題模型 與其他的鐵達尼號遇難 等案例不同,文字處理需要自己在預處理時構建出資料表.沒有後者每乙個提供表 不使用第三方庫實現的思路 過濾停用詞得到去掉停用詞的集合data 對data進行去重 現在使用的演算法不需要單詞出現的數量,如果換作其他演...

Python文字資料分析與處理

分詞 過濾停用詞 tf idf得到摘要資訊或者使用lda主題模型 與其他的鐵達尼號遇難 等案例不同,文字處理需要自己在預處理時構建出資料表.沒有後者每乙個提供表 不使用第三方庫實現的思路 過濾停用詞得到去掉停用詞的集合data 對data進行去重 現在使用的演算法不需要單詞出現的數量,如果換作其他演...

python資料分析與展示 一

本文是中國大學mooc中北京理工大學的python系列專題講座的python資料分析與展示的筆記 使用 matplotlib.pyplot是繪製各類視覺化的圖形命令子庫,相當於快捷方式 引入庫檔案 import matplotlib.pyplot as plt示例 import matplotlib...