Python實驗 Pandas資料處理與分析

2021-10-12 08:45:39 字數 3076 閱讀 2781

1

、程式題

現有如下**資料,請對該資料進行以下操作:

)建立乙個結構如上圖所示的

dataframe

物件。 (

2)將圖中的

b 列資料按降序排序。 (

3)將排序後的資料寫入到

csv

檔案,取名為

write_data.csv。

2、程式題

現有如下圖所示的兩組資料,其中

a 組中

b 列資料存在缺失值,並且該列

資料為

int

型別,b

組資料均為

str

型別。

)使用

dataframe

建立這兩組資料。 (

2)使用

b 組的資料對

a 組中的缺失值進行填充,並保持資料型別一致。 (

3)將合併後

a 組中索引名為

key

的索引重新命名為 d。

3、北京租房資料統計分析 (

1)讀取鏈家北京租房資料;

刪除資料中的重複值和缺失值;

將「戶型」一列統一調整為「

x 室

x 廳」格式;

將「面積」一列調整為數值格式;

使用箱形圖檢查「面積」和「**」列中是否存在異常資料;

使用「區域」和「小區名稱」新增「位置」一列,形如「北京市

xx 區

xx」; (

2)對「戶型」、「面積」和「**」以及每平公尺**等資訊進行簡要的

統計分析,如每平公尺**的最大值、最小值、平均值,「面積」的分箱區間統計,

「戶型」的種類統計等

1、程式題

import pandas as pd 

df_example=pd.dataframe() df_example=df_example.sort_values(by='b',ascending=false)

print(df_example)

df_example.to_csv(r'e:\實驗資料\write_data.csv',index=false)

2、程式題

import numpy as np 

import pandas as pd

group_a=pd.dataframe(,dtype=int)

group_b=pd.dataframe(,dtype=str)

com=group_a.combine_first(group_b)

com.rename(columns=,inplace=true)

print(com)

3、北京鏈家資料分析(1

)讀取鏈家北京租房資料;

import pandas as pd 

import numpy as np

import seaborn as sns

file = open(r'e:\實驗資料\鏈家北京租房資料.csv')

data=pd.read_csv(file)

print(data)

#刪除資料中的重複值和缺失值

data.drop_duplicates()

#將「戶型」調整為「x室x廳」格式

data['戶型']=data['戶型'].str.replace('房間','室')

print(data['戶型'])

#將「面積」一列調整為數值格式

data['面積(㎡)'] = data['面積(㎡)'].map(lambda x: str(x)[:-2])

data['面積(㎡)']=data['面積(㎡)'].astype(dtype='int')

print(data['面積(㎡)'].dtypes)

#使用箱型圖檢查「面積」和「**」列中是否存在異常數值

data.boxplot(column=['**(元/月)','面積(㎡)'])

#使用「區域」和「小區名稱」新增「位置」一列,形如「北京市 xx 區 xx」

data['位置'] = '北京市'+data['區域'].map(str)+'區'+data["小區名稱"].map(str)

print(data)

(2

)對「戶型」、「面積」和「**」以及每平公尺**等資訊進行簡要的統計

分析,如每平公尺**的最大值、最小值、平均值,「面積」的分箱區間統計,「戶

型」的種類統計等。

price_static1=np.mean(data['**(元/月)']/data['面積(㎡)']) 

price_static2=np.max(data['**(元/月)']/data['面積(㎡)'])

price_static3=np.min(data['**(元/月)']/data['面積(㎡)'])

area_static=pd.cut(data['面積(㎡)'],bins=25).value_counts()

house_type_count=data.groupby('戶型')

print('每平公尺**平均值',price_static1)

print('每平公尺**最大值',price_static2)

print('每平公尺**最小值',price_static3)

print('面積的分箱區間統計結果:\n',area_static)

print('北京鏈家現有戶型種類及數量為:',house_type_count['戶型'].count())

python 使用pandas來處理測試資料

一 pandas是什麼 功能及其強大的資料分析庫 可以高效地操作各種資料集 csv格式的檔案 excel檔案 html檔案 xml檔案 json格式檔案 yaml格式的檔案 資料庫操作 二 使用pandas來處理測試資料 1 安裝pandas pip install pandas 2 匯入panda...

初探pandas 安裝和了解pandas資料結構

通過python pip安裝pandas pip install pandaspandas常用資料結構包括 series和dataframe series是一種一維的陣列型物件,包含乙個值序列 與numpy中的資料型別相似 資料標籤 稱為索引 index import pandas as pd 建立...

初探pandas 安裝和了解pandas資料結構

通過python pip安裝pandas pip install pandaspandas常用資料結構包括 series和dataframe series是一種一維的陣列型物件,包含乙個值序列 與numpy中的資料型別相似 資料標籤 稱為索引 index import pandas as pd 建立...