pandas常用的資料處理方法

2021-09-13 11:54:43 字數 1055 閱讀 6825

pandas常用操作方法

資料去重及重置索引

data1 = data.drop_duplicates(keep='first', inplace=false) 

data2 = data1.reset_index(drop=true)

去掉time列裡面資料是0的所在行記錄

data1 = data[~data['time'].isin([0])]
用0或其他數值填充缺失值,以0為例

data = data.fillna(0)
按列篩選資料,在data表中篩選時間列 t1
subdata_1 = data.loc[data['time'] > t1]

subdata_2 = subdata_1.loc[subdata_1['time'] < t2]

統計data表中第二列每個元素出現的個數

data1= data.iloc[:, 1]

count = dict(data1.value_counts())

count_1= pd.dataframe(list(count.items()), columns = ['value', 'number'])

value值在小數點後保留3位

percent = '%.3f' % (value)
dateframe刪除一行或一列

data1 = data.drop(0, axis=0, inplace=false)              # 刪除第一行

data2 = data.drop(['a'], axis = 1) # 刪除a列

給dataframe表新增列名、調整列的順序

data.columns = ['a', 'b']

data1 = data[[ 'b', 'a']] # 調整列的順序

Python資料處理pandas常用方法

1 時間序列化 periodindex 2 變更列名 rename df.rename columns inplace true 3 對某列執行特定函式 agg df.groupby 貨主 英文列名.agg sum mean max min 4 排序 sort values ascending如果都...

pandas 的資料處理方法

import pandas as pd 2 讀入資料 pd.read csv filepath,param 3 檢視資料的前五行 pd.head pd.tail 檢視尾5行 4 檢視資料的一些情況 series.describe 對一列進行統計 5 刪除列 pd.drop columns,inpla...

資料處理 pandas資料處理優化方法小結

資料處理時使用最多的就是pandas庫,pandas在資料處理方面很強大,整合了資料處理和資料視覺化。pandas的視覺化使用的是matplotlib。回到主題 計算資料的某個欄位的所有值,對其欄位所有值進行運算 處理的字段資料為時間戳,需要計算該時間戳距離現在的時間,單位為天。一般方法 使用現在的...