dataframe 別名 df
series 別名 s
import pandas as pd
import numpy as np
pd.read_csv(filename)
# 匯入csv格式檔案中的資料
pd.read_table(filename)
# 匯入有分隔符的文字 (如tsv) 中的資料
pd.read_excel(filename)
# 匯入excel格式檔案中的資料
pd.read_sql(query, connection_object)
# 匯入sql資料表/資料庫中的資料
pd.read_json(json_string)
# 匯入json格式的字元,url位址或者檔案中的資料
pd.read_html(url)
# 匯入經過解析的url位址中包含的資料框 (dataframe) 資料
pd.read_clipboard(
)# 匯入系統貼上板裡面的資料
pd.dataframe(
dict
)# 匯入python字典 (dict) 裡面的資料,其中key是資料框的表頭,value是資料框的內容。
df.to_csv(filename)
# 將資料框 (dataframe)中的資料匯入csv格式的檔案中
df.to_excel(filename)
# 將資料框 (dataframe)中的資料匯入excel格式的檔案中
df.to_sql(table_name,connection_object)
# 將資料框 (dataframe)中的資料匯入sql資料表/資料庫中
df.to_json(filename)
# 將資料框 (dataframe)中的資料匯入json格式的檔案中
df.head(n)
# 檢視前n行資料
df.tail(n)
# 檢視後n行資料
df.shape # 檢視資料的行數與列數
df.info(
)# 檢視資料 (dataframe) 的索引、資料型別及記憶體資訊
df.describe(
)# 對於資料型別為數值型的列,查詢其描述性統計的內容
df.(pd.series.value_counts)
# 查詢資料 (data frame) 中每個列的不同資料值出現次數統計
df[
[col1, col2]
]# 以新的資料(dataframe)的形式返回選取的列
s.iloc[0]
# 按照位置選取
s.loc[
'index_one'
]# 按照索引選取
df.iloc[0,
:]# 選取第一行
df.iloc[0,
0]# 選取第一行的第乙個元素
df.columns =
['a'
,'b'
]# 重新命名資料框的列名稱
pd.isnull(df)
# 檢查資料中空值出現的情況,並返回乙個由布林值(true,fale)組成的列
pd.notnull(df)
# 檢查資料中非空值出現的情況,並返回乙個由布林值(true,false)組成的列
df.dropna(
)# 移除資料框 dataframe 中包含空值的行
df.dropna(axis=1)
# 移除資料框 dataframe 中包含空值的列
df.fillna(x)
# 將資料框 dataframe 中的所有空值替換為 x
s.fillna(s.mean())
# 將所有空值替換為平均值
s.astype(
float
)# 將陣列(series)的格式轉化為浮點數
s.replace(1,
'one'
)# 將陣列(series)中的所有1替換為'one'
s.replace([1
,3],
['one'
,'three'])
# 將陣列(series)中所有的1替換為'one', 所有的3替換為'three'
df.rename(columns=
lambda x: x +2)
# 將全體列重新命名
df.rename(columns=
)# 將選擇的列重新命名
df.set_index(
'column_one'
)# 改變索引
df.rename(index =
lambda x: x+1)
# 改變全體索引
# 過濾
df[df[col]
>1]
# 選取資料框df中對應行的數值大於1的全部列
df[(df[col]
>1)
&(df[col]
<2)
]# 選取資料框df中對應行的數值大於1,並且小於2的全部列
# 排序
df.sort_values(col1)
# 按照資料框的列col1公升序(ascending)的方式對資料框df做排序
df.sort_values(col2,ascending=
false
)# 按照資料框的列col2降序(descending)的方式對資料框df做排序
df.sort_values(
[col1,col2]
,ascending=
[true
,false])
# 按照資料框的列col1公升序,col2降序的方式對資料框df做排序
# 分組
df.groupby(col)
# 按照某列對資料框df做分組
df.groupby(
[col1,col2]
)# 按照列col1和col2對資料框df做分組
df.groupby(col1)
[col2]
.mean(
)# 按照列col1對資料框df做分組處理後,返回對應的col2的平均值
df.(np.mean)
# 對資料框df的每一列求平均值
df.(np.
max,axis=1)
# 對資料框df的每一行求最大值
# 組合
# 在資料框df1的末尾新增資料框df2,其中df1和df2的列數應該相等
pd.concat(
[df1, df2]
,axis=1)
# 在資料框df1的列最後新增資料框df2,其中df1和df2的行數應該相等
# 連線
df1.join(df2,on=col1,how=
'inner'
,,lsuffix=
'_l'
,rsuffix=
'_r'
)# 對資料框df1和df2做內連線,其中連線的列為col1,為左右連線資料列新增字尾
df.mean(
)# df中每一列的平均值
df.describe(
)# df每一列的描述性統計
df.corr(
)# df中每一列與其他列的相關係數
df.count(
)# df中每一列的非空值個數
df.max()
# df中每一列的最大值
df.min()
# df中每一列的最小值
df.median(
)# df中每一列的中位數
df.std(
)# df中每一列的標準差
Python Pandas常用方法
1 pandas dataframe 基礎 import numpy as np import pandas as pd 建立 dataframe dic df pd.dataframe dic 字典轉化為dataframe 外部檔案讀入dataframe dic2 pd.read csv f u ...
python pandas常用資料處理方法
pandas 1 header 0 不同於 header none header 0 表示 第0行為列 header none 表示讀取的時候 認為沒有標題,全是資料 可以用 skiprows 1 跳過列名 2 pandas 獲取指定的行列資料 df.iloc 0 2,0,3 讀取 第 0,2 行的...
Python pandas,建立Series型別
numpy只能處理數值型別的資料。pandas除了可以處理數值型別外,還可以處理非數值型別的資料 例如 字串 時間序列等 pandas常用的資料型別 series 一維,帶標籤的陣列,對應資料庫中的一條記錄 dataframe 二維,series容器,對應資料庫中的表 demo.py series的...