pandas 操作整理

pd.read_csv(filename)：從csv檔案匯入資料，filename路徑

pd.read_excel(filename)：從excel檔案匯入資料

pd.read_sql(query)：從sql表/庫匯入資料

pd.read_html(url)：解析url、字串或者html檔案，抽取其中的tables**

pd.read_clipboard()：從貼上板獲取內容，並傳給read_table()

pd.dataframe(dict)：從字典物件匯入資料，key是列名，value是資料

df.to_csv(filename)：匯出資料到csv檔案

df.to_excel(filename)：匯出資料到excel檔案

df.to_sql(table_name, connection_object)：匯出資料到sql表

（df：資料檔名）

pd.dataframe(np.random.rand(20,5))：建立20行5列的隨機數組成的dataframe物件

df.index = pd.date_range(『1900/1/30』, periods=df.shape[0])：增加乙個日期索引

df.head(n)：檢視dataframe物件的前n行

df.tail(n)：檢視dataframe物件的最後n行

df.shape()：檢視行數和列數

df.describe()：檢視數值型列的匯**計

s.value_counts(dropna=false)：檢視series物件的唯一值和計數

df[col]：根據列名，並以series的形式返回列

df[[col1, col2]]：以dataframe形式返回多列

s.iloc[0]：按位置選取資料

s.loc[『index_one』]：按索引選取資料

df.iloc[0,:]：返回第一行

df.iloc[0,0]：返回第一列的第乙個元素

df.describe()：檢視資料值列的匯**計

df.mean()：返回所有列的均值

df.count()：返回每一列中的非空值的個數

df.max()：返回每一列的最大值

df.min()：返回每一列的最小值

df.median()：返回每一列的中位數

df.std()：返回每一列的標準差

df.concat([df1, df2],axis=1)：將df2中的列新增到df1的尾部

df[df[col] > 0.5]：選擇col列的值大於0.5的行

df.sort_values(col1)：按照列col1排序資料，預設公升序排列

df.sort_values(col2, ascending=false)：按照列col1降序排列資料

df.sort_values([col1,col2], ascending=[true,false])：先按列col1公升序排列，後按col2降序排列資料

df.groupby(col)：返回乙個按列col進行分組的groupby物件

df.groupby([col1,col2])：返回乙個按多列進行分組的groupby物件

df.groupby(col1)[col2]：返回按列col1進行分組後，列col2的均值

df.pivot_table(index=col1, values=[col2,col3], aggfunc=max)：建立乙個按列col1進行分組，並計算col2和col3的最大值的資料透視表

df.groupby(col1).agg(np.mean)：返回按列col1分組的所有列的均值

df[df[col] > 0.5]：選擇col列的值大於0.5的行

df.sort_values(col1)：按照列col1排序資料，預設公升序排列

df.sort_values(col2, ascending=false)：按照列col1降序排列資料

df.sort_values([col1,col2], ascending=[true,false])：先按列col1公升序排列，後按col2降序排列資料

df.groupby(col)：返回乙個按列col進行分組的groupby物件

df.groupby([col1,col2])：返回乙個按多列進行分組的groupby物件

df.groupby(col1)[col2]：返回按列col1進行分組後，列col2的均值

df.pivot_table(index=col1, values=[col2,col3], aggfunc=max)：建立乙個按列col1進行分組，並計算col2和col3的最大值的資料透視表

df.groupby(col1).agg(np.mean)：返回按列col1分組的所有列的均值

1、

data = pd.read_csv(
'data/healthcostsharing.csv'
)print
([column for column in data]
)

2、獲取columns，返回乙個array

print
(data.columns.values)

3、list

print
(list
(data)
)

pandas常用操作整理

10 isin函式做篩選 11 缺失值處理使用map函式就可以實現把某一列的字元型別的值轉換為數字。data class data class map首先定義乙個字典，然後使用map方法就可以把某一列的字元型別的值轉換為數字。參考使用pandas把某一列的字元值轉換為數字的例項使用value ...

Pandas資料整理

import xlrd import pandas as pd workbook xlrd.open workbook 成績表統計 xls sheet names workbook.sheet names print sheet names 縱向合併 order1 pd.read excel 成績...

pandas 常用函式整理

pandas常用函式整理，作為個人筆記。僅標記函式大概用途做索引用，具體使用方式請參照pandas官方技術文件。約定from pandas import series,dataframe import pandas as pd import numpy as np 帶.的為series或者dataf...

pandas 操作整理

pandas常用操作整理

Pandas資料整理

pandas 常用函式整理

相關推薦