pandas常用指令

#匯入資料
pd.read_csv(filename) 從csv匯入
pd.read_table(filename) 從分隔的文字檔案匯入
pd.read_excel(filename) 從excel檔案匯入
pd.read_sql(query, connection_object) 從sql資料庫讀取
pd.read_json(json_string) 讀取json格式的字串、url或檔案
pd.read_html(url) 解析html的url，字串或者檔案，從一系列的dataframes提取table
pd.read_clipboard() 獲取剪下板的內容，將其傳遞給read_table
pd.dataframe(dict) 從dict獲取dataframe，鍵名為欄目名，值為一系列的列表

#匯出資料
df.to_csv(filename) 寫入csv檔案
df.to_excel(filename) 寫入excel檔案
df.to_sql(table_name, connection_object) 寫入sql資料庫(表)
df.to_json(filename) 以json檔案的形式寫入
df.to_html(filename) 儲存成html格式
df.to_clipboard() 寫進剪貼簿
#創造物件

pd.dataframe(np.random.rand(20,5)) 生成5列20行的隨機浮點數
pd.series(my_list) 用可迭代列表創造一列資料
df.index = pd.date_range('1900/1/30',periods=df.shape[0]) 增加乙個日期索引
#檢視資料

df.head(n) dataframe開頭的n行記錄
df.tail(n) dataframe結尾的n行記錄
df.shape() dataframe行、列數
df.info() 展示index,datatype,memory相關資訊
df.describe() 數字列的相關綜合統計
s.value_counts(dropna=false) 檢視某一列唯一的值並統計數量

#資料選擇

df[col] 取出標籤是col的一列
df[[col1, col2]] 作為dataframe返回兩列
s.iloc[0] 根據位置選擇 
s.loc[0] 根據索引選擇
df.iloc[0,:] 第一行
df.iloc[0,0] 第一列的第乙個元素

#資料清洗

df.columns = ['a','b','c']重新命名列
pd.isnull() 確認是否為空值，返回布林陣列
pd.notnull() 與上面相反
df.dropna() 刪除所有包含null值的行記錄
df.dropna(axis=1) 刪除所有包含null值的列記錄
df.dropna(axis=1,thresh=n) 刪除所有包含少於n個非空值的行
df.fillna(s.mean()) 用平均值替換掉所有空值
s.astype(float) 將某series的資料轉換成float的資料型別　
s.replace(1,'one') 將所有值等於１的替換為one
s.replace([1,3], ['one','three']) 將所有值等於１的替換為one,3替換為three
df.rename(columns=lambda x:x+1)　取上一般性的標題名
df.rename(columns=) 指定列名重新命名
df.set_index('column_one')　修改索引

#過濾排序分組

df[df[col] > 0.5] col列值大於0.5的行
df[(df[col] >0.5) & (df[col] <0.7)] col列值大於0.5小於0.7的行
df.sort_values(col1) 按照col1進行公升序進行排列
df.sort_values(col2,ascending=false) 根據col2進行降序排列
df.sort_values([col1,col2],ascending=[true,false]) 根據col1公升序col2降序聯合排列
df.groupby(col) 根據某列的值返回分組物件
df.groupby([col1,col2]) 根據多列的值返回分組物件
df.groupby(col1)[col2].mean() 根據col1值返回分組物件，求col2列的平均值
df.pivot_table(index=col1,values=[col2,col3],aggfunc=mean) 
建立乙個按col1分組的資料透視表，並計算col2和col3的平均值
df.groupby(col1).agg(np.mean) 查詢每個唯一col1組的所有列的平均值

#統計

df.describe() 顯示總體統計的彙總狀況
df.mean() 返回所有列的平均值
df.corr() 返回dataframe列之間的相關關係
df.count() 返回dataframe列中的非空值數量
df.max() 返回dataframe列中的最大值
df.min() 返回dataframe列中的最低值
df.median() 返回dataframe每列的中位數
df.std() 返回dataframe每列的標準差

#顯示所有列 
pd.set_option('display.max_columns', none)
#顯示所有行 
pd.set_option('display.max_rows', none) 
#設定value的顯示長度為100，預設為50 
pd.set_option('max_colwidth',100)
# **自

pandas常用指令

生成 l green 1 blue 2 df pd.dataframe l df.columns color class 讀取 y train data survived 生成 pandas.core.series.series y train data survived tolist 生成list...

pandas 常用函式

本文翻譯自文章 pandas cheat sheet python for data science 同時新增了部分註解。對於資料科學家，無論是資料分析還是資料探勘來說，pandas是乙個非常重要的python包。它不僅提供了很多方法，使得資料處理非常簡單，同時在資料處理速度上也做了很多優化，使得和...

Pandas常用函式

count 非 na 值的數量 describe 針對 series 或 df 的列計算匯計 min max 最小值和最大值 argmin argmax 最小值和最大值的索引位置整數 idxmin idxmax 最小值和最大值的索引值 quantile 樣本分位數 0 到 1 sum求和 mea...

pandas常用指令

pandas常用指令

pandas 常用函式

Pandas常用函式

相關推薦