pandas 操作整理

2021-10-02 15:56:52 字數 2624 閱讀 1062

pd.read_csv(filename):從csv檔案匯入資料,filename路徑

pd.read_excel(filename):從excel檔案匯入資料

pd.read_sql(query):從sql表/庫匯入資料

pd.read_html(url):解析url、字串或者html檔案,抽取其中的tables**

pd.read_clipboard():從貼上板獲取內容,並傳給read_table()

pd.dataframe(dict):從字典物件匯入資料,key是列名,value是資料

df.to_csv(filename):匯出資料到csv檔案

df.to_excel(filename):匯出資料到excel檔案

df.to_sql(table_name, connection_object):匯出資料到sql表

(df:資料檔名)

pd.dataframe(np.random.rand(20,5)):建立20行5列的隨機數組成的dataframe物件

df.index = pd.date_range(『1900/1/30』, periods=df.shape[0]):增加乙個日期索引

df.head(n):檢視dataframe物件的前n行

df.tail(n):檢視dataframe物件的最後n行

df.shape():檢視行數和列數

df.describe():檢視數值型列的匯**計

s.value_counts(dropna=false):檢視series物件的唯一值和計數

df[col]:根據列名,並以series的形式返回列

df[[col1, col2]]:以dataframe形式返回多列

s.iloc[0]:按位置選取資料

s.loc[『index_one』]:按索引選取資料

df.iloc[0,:]:返回第一行

df.iloc[0,0]:返回第一列的第乙個元素

df.describe():檢視資料值列的匯**計

df.mean():返回所有列的均值

df.count():返回每一列中的非空值的個數

df.max():返回每一列的最大值

df.min():返回每一列的最小值

df.median():返回每一列的中位數

df.std():返回每一列的標準差

df.concat([df1, df2],axis=1):將df2中的列新增到df1的尾部

df[df[col] > 0.5]:選擇col列的值大於0.5的行

df.sort_values(col1):按照列col1排序資料,預設公升序排列

df.sort_values(col2, ascending=false):按照列col1降序排列資料

df.sort_values([col1,col2], ascending=[true,false]):先按列col1公升序排列,後按col2降序排列資料

df.groupby(col):返回乙個按列col進行分組的groupby物件

df.groupby([col1,col2]):返回乙個按多列進行分組的groupby物件

df.groupby(col1)[col2]:返回按列col1進行分組後,列col2的均值

df.pivot_table(index=col1, values=[col2,col3], aggfunc=max):建立乙個按列col1進行分組,並計算col2和col3的最大值的資料透視表

df.groupby(col1).agg(np.mean):返回按列col1分組的所有列的均值

df[df[col] > 0.5]:選擇col列的值大於0.5的行

df.sort_values(col1):按照列col1排序資料,預設公升序排列

df.sort_values(col2, ascending=false):按照列col1降序排列資料

df.sort_values([col1,col2], ascending=[true,false]):先按列col1公升序排列,後按col2降序排列資料

df.groupby(col):返回乙個按列col進行分組的groupby物件

df.groupby([col1,col2]):返回乙個按多列進行分組的groupby物件

df.groupby(col1)[col2]:返回按列col1進行分組後,列col2的均值

df.pivot_table(index=col1, values=[col2,col3], aggfunc=max):建立乙個按列col1進行分組,並計算col2和col3的最大值的資料透視表

df.groupby(col1).agg(np.mean):返回按列col1分組的所有列的均值

1、

data = pd.read_csv(

'data/healthcostsharing.csv'

)print

([column for column in data]

)

2、獲取columns,返回乙個array

print

(data.columns.values)

3、list

print

(list

(data)

)

pandas常用操作整理

10 isin函式做篩選 11 缺失值處理 使用map函式就可以實現把某一列的字元型別的值轉換為數字。data class data class map首先定義乙個字典,然後使用map方法就可以把某一列的字元型別的值轉換為數字。參考 使用pandas把某一列的字元值轉換為數字的例項 使用value ...

Pandas資料整理

import xlrd import pandas as pd workbook xlrd.open workbook 成績表 統計 xls sheet names workbook.sheet names print sheet names 縱向合併 order1 pd.read excel 成績...

pandas 常用函式整理

pandas常用函式整理,作為個人筆記。僅標記函式大概用途做索引用,具體使用方式請參照pandas官方技術文件。約定from pandas import series,dataframe import pandas as pd import numpy as np 帶.的為series或者dataf...