Python Pandas常用命令彙總

2021-09-02 19:30:15 字數 3917 閱讀 6130

dataframe 別名 df

series 別名 s

import pandas as pd

import numpy as np

pd.read_csv(filename)

# 匯入csv格式檔案中的資料

pd.read_table(filename)

# 匯入有分隔符的文字 (如tsv) 中的資料

pd.read_excel(filename)

# 匯入excel格式檔案中的資料

pd.read_sql(query, connection_object)

# 匯入sql資料表/資料庫中的資料

pd.read_json(json_string)

# 匯入json格式的字元,url位址或者檔案中的資料

pd.read_html(url)

# 匯入經過解析的url位址中包含的資料框 (dataframe) 資料

pd.read_clipboard(

)# 匯入系統貼上板裡面的資料

pd.dataframe(

dict

)# 匯入python字典 (dict) 裡面的資料,其中key是資料框的表頭,value是資料框的內容。

df.to_csv(filename)

# 將資料框 (dataframe)中的資料匯入csv格式的檔案中

df.to_excel(filename)

# 將資料框 (dataframe)中的資料匯入excel格式的檔案中

df.to_sql(table_name,connection_object)

# 將資料框 (dataframe)中的資料匯入sql資料表/資料庫中

df.to_json(filename)

# 將資料框 (dataframe)中的資料匯入json格式的檔案中

df.head(n)

# 檢視前n行資料

df.tail(n)

# 檢視後n行資料

df.shape # 檢視資料的行數與列數

df.info(

)# 檢視資料 (dataframe) 的索引、資料型別及記憶體資訊

df.describe(

)# 對於資料型別為數值型的列,查詢其描述性統計的內容

df.(pd.series.value_counts)

# 查詢資料 (data frame) 中每個列的不同資料值出現次數統計

df[

[col1, col2]

]# 以新的資料(dataframe)的形式返回選取的列

s.iloc[0]

# 按照位置選取

s.loc[

'index_one'

]# 按照索引選取

df.iloc[0,

:]# 選取第一行

df.iloc[0,

0]# 選取第一行的第乙個元素

df.columns =

['a'

,'b'

]# 重新命名資料框的列名稱

pd.isnull(df)

# 檢查資料中空值出現的情況,並返回乙個由布林值(true,fale)組成的列

pd.notnull(df)

# 檢查資料中非空值出現的情況,並返回乙個由布林值(true,false)組成的列

df.dropna(

)# 移除資料框 dataframe 中包含空值的行

df.dropna(axis=1)

# 移除資料框 dataframe 中包含空值的列

df.fillna(x)

# 將資料框 dataframe 中的所有空值替換為 x

s.fillna(s.mean())

# 將所有空值替換為平均值

s.astype(

float

)# 將陣列(series)的格式轉化為浮點數

s.replace(1,

'one'

)# 將陣列(series)中的所有1替換為'one'

s.replace([1

,3],

['one'

,'three'])

# 將陣列(series)中所有的1替換為'one', 所有的3替換為'three'

df.rename(columns=

lambda x: x +2)

# 將全體列重新命名

df.rename(columns=

)# 將選擇的列重新命名

df.set_index(

'column_one'

)# 改變索引

df.rename(index =

lambda x: x+1)

# 改變全體索引

# 過濾

df[df[col]

>1]

# 選取資料框df中對應行的數值大於1的全部列

df[(df[col]

>1)

&(df[col]

<2)

]# 選取資料框df中對應行的數值大於1,並且小於2的全部列

# 排序

df.sort_values(col1)

# 按照資料框的列col1公升序(ascending)的方式對資料框df做排序

df.sort_values(col2,ascending=

false

)# 按照資料框的列col2降序(descending)的方式對資料框df做排序

df.sort_values(

[col1,col2]

,ascending=

[true

,false])

# 按照資料框的列col1公升序,col2降序的方式對資料框df做排序

# 分組

df.groupby(col)

# 按照某列對資料框df做分組

df.groupby(

[col1,col2]

)# 按照列col1和col2對資料框df做分組

df.groupby(col1)

[col2]

.mean(

)# 按照列col1對資料框df做分組處理後,返回對應的col2的平均值

df.(np.mean)

# 對資料框df的每一列求平均值

df.(np.

max,axis=1)

# 對資料框df的每一行求最大值

# 組合

# 在資料框df1的末尾新增資料框df2,其中df1和df2的列數應該相等

pd.concat(

[df1, df2]

,axis=1)

# 在資料框df1的列最後新增資料框df2,其中df1和df2的行數應該相等

# 連線

df1.join(df2,on=col1,how=

'inner'

,,lsuffix=

'_l'

,rsuffix=

'_r'

)# 對資料框df1和df2做內連線,其中連線的列為col1,為左右連線資料列新增字尾

df.mean(

)# df中每一列的平均值

df.describe(

)# df每一列的描述性統計

df.corr(

)# df中每一列與其他列的相關係數

df.count(

)# df中每一列的非空值個數

df.max()

# df中每一列的最大值

df.min()

# df中每一列的最小值

df.median(

)# df中每一列的中位數

df.std(

)# df中每一列的標準差

Python Pandas常用方法

1 pandas dataframe 基礎 import numpy as np import pandas as pd 建立 dataframe dic df pd.dataframe dic 字典轉化為dataframe 外部檔案讀入dataframe dic2 pd.read csv f u ...

python pandas常用資料處理方法

pandas 1 header 0 不同於 header none header 0 表示 第0行為列 header none 表示讀取的時候 認為沒有標題,全是資料 可以用 skiprows 1 跳過列名 2 pandas 獲取指定的行列資料 df.iloc 0 2,0,3 讀取 第 0,2 行的...

Python pandas,建立Series型別

numpy只能處理數值型別的資料。pandas除了可以處理數值型別外,還可以處理非數值型別的資料 例如 字串 時間序列等 pandas常用的資料型別 series 一維,帶標籤的陣列,對應資料庫中的一條記錄 dataframe 二維,series容器,對應資料庫中的表 demo.py series的...