Python 機器學習 Pandas

2021-10-13 12:48:23 字數 3589 閱讀 3714

import pandas

#pandas 資料預處理非常很好使用

檢視資料

[pandas詳細說明]

)#讀取.csv檔案 輸入絕對路徑,同檔案可以相對路徑

print

(type

(food_info)

)#資料型別 dataframe 有許多行列組成 每一行或列交series

print

(food_info.dtypes)

#包含幾種的資料型別結構 字元(str) object 整型 int64 浮點型 float64

print

(food_info.head())

#head預設顯示前五條資料

first_row = food_info.head(1)

#顯示前一行

print

(first_row)

print

(food_info.tail(2)

)#顯示後2行

print

(food_info.columns)

#列印每列的抬頭

print

(food_info.shape)

#(3,4)

#取資料

print

(food_info.loc[0]

)#第0行所有資料

print

(food_info.loc[0:

2])#切片取資料

type_data = food_info[

"type"

]#第一列的名稱 取出type列資料

print

(type_data)

columns =

["type"

,"owner"

]#n列製表 定位兩個列名

print

(food_info[columns]

)#尋找以er結尾的列

col_names = food_info.columns.tolist(

)#轉成列表 拿到每個列對應的title

print

(col_names)

g_columns =

for c in col_names:

if c.endswith(

"er"):

gg_df = food_info[g_columns]

print

(gg_df)

# 和numpy一樣進行加減乘除

print

(food_info[

"data_time"]/

100)

food_info[

'contry']=

['chian'

,'chian'

,'china'

]# 新加入一列數值 保持數量上一樣

print

(food_info.shape)

#排序操作

food_info.sort_values(

'price'

, inplace=

true

, ascending=

true

)# 預設進行從小到大的排序,對內部進行操作

print

(food_info[

'price'])

food_info.sort_values(

'price'

, inplace=

true

, ascending=

false

)# 降序操作

print

(food_info[

'price'])

# 資料預處理

data1 = food_info[

'price'

]data_is_null = pandas.isnull(data1)

#判斷是否有nan

print

(data_is_null)

#bool 可以當成索引

print

(data1[data_is_null]

)#輸出所有的nan

print

(len

(data[data_is_null]))

good_data = food_info[

'price'

][data_is_null ==

false

]mean_data =

sum(good_data)

/len

(good_data)

print

(mean_data)

# 對應於type中的三個型別 各自對應**的平均值多少

type_mean = food_info.pivot_table(index=

'type'

, values=

'price'

, aggfunc=np.mean)

print

(type_mean)

type_mean = food_info.pivot_table(index=

'type'

, values=

['price'

,'data_time'])

#預設求均值

print

(type_mean)

print

(food_info.dropna(axis=

0, subset=

['price'

,'data_time'])

)#去掉兩組資料中nan的資料

#定位到具體值

print

(food_info.loc[3,

'price'])

#拿出第四行關於price的值

#new_data = food_info.sort_values(

'price'

)new_data_idd = new_data.reset_index(drop=

true

)#重新排序後丟掉原來的索引值

#定義新函式重新加進去

defone_row

(column)

:'''

return one row values

:param column:

:return:

'''one_values = column.loc[1]

return one_values

one_value = food_info.

(one_row)

print

(food_info.loc[0,

:])print

(one_value)

#price_data = food_info[

'price'

]#series

price_data_value = price_data.values #ndarray

學習Python大資料處理模組Pandas

適合初學入門 本節基本了解pandas裡的一些資料結構和模組的基本使用,初步了解pandas的提供的一些功能,學會基本使用。通過python的zip構造出一元組組成的列表作為dataframe的輸入資料rec。in 3 import pandas as pd in 4 import random i...

python統計excel利用pandans的分組

python統計excel利用pandans的分組,其中還用列表資料求差集 csv資料結構 有三個按照日期統計的csv 需要統計出這三張csv按照areaid缺少的type和bdtype 其中type 1,2,3,4 bdtype 1,3,4 原始碼如下 第一步資料初步處理刪除非必須列 coding...

python機器 python機器學習

熱詞系列 打卡 mark一下,以後看 每天打卡學習 1 python 基礎 bv1lt4y1u7un 2 python 高階 bv1jz411b7dh 3 python 資料庫 bv1pg4y1a7a7 4 python gui與坦克大戰 bv1je411f72o 5 python numpy bv...