譯 Pandas常用命令對照清單

2022-01-31 17:06:52 字數 3081 閱讀 6466

df pandas的dataframe物件

s pandas的series物件

import pandas as pd

import numpy as np

pd.read_csv(filename) 從csv匯入

pd.read_table(filename) 從分隔的文字檔案匯入

pd.read_excel(filename) 從excel檔案匯入

pd.read_sql(query, connection_object) 從sql資料庫讀取

pd.read_json(json_string) 讀取json格式的字串、url或檔案

pd.read_html(url) 解析html的url,字串或者檔案,從一系列的dataframes提取table

pd.read_clipboard() 獲取剪下板的內容,將其傳遞給read_table

pd.dataframe(dict) 從dict獲取dataframe,鍵名為欄目名,值為一系列的列表

df.to_csv(filename) 寫入csv檔案

df.to_excel(filename) 寫入excel檔案

df.to_sql(table_name, connection_object) 寫入sql資料庫(表)

df.to_json(filename) 以json檔案的形式寫入

df.to_html(filename) 儲存成html格式

df.to_clipboard() 寫進剪貼簿

pd.dataframe(np.random.rand(20,5)) 生成5列20行的隨機浮點數

pd.series(my_list) 用可迭代列表創造一列資料

df.index = pd.date_range('1900/1/30',periods=df.shape[0]) 增加乙個日期索引

df.head(n) dataframe開頭的n行記錄

df.tail(n) dataframe結尾的n行記錄

df.shape() dataframe行、列數

df.info() 展示index,datatype,memory相關資訊

df.describe() 數字列的相關綜合統計

s.value_counts(dropna=false) 檢視某一列唯一的值並統計數量

df[col] 取出標籤是col的一列

df[[col1, col2]] 作為dataframe返回兩列

s.iloc[0] 根據位置選擇

s.loc[0] 根據索引選擇

df.iloc[0,:] 第一行

df.iloc[0,0] 第一列的第乙個元素

df.columns = ['a','b','c']重新命名列

pd.isnull() 確認是否為空值,返回布林陣列

pd.notnull() 與上面相反

df.dropna() 刪除所有包含null值的行記錄

df.dropna(axis=1) 刪除所有包含null值的列記錄

df.dropna(axis=1,thresh=n) 刪除所有包含少於n個非空值的行

df.fillna(s.mean()) 用平均值替換掉所有空值

s.astype(float) 將某series的資料轉換成float的資料型別 

s.replace(1,'one') 將所有值等於1的替換為one

s.replace([1,3], ['one','three']) 將所有值等於1的替換為one,3替換為three

df.rename(columns=lambda x:x+1) 取上一般性的標題名

df.rename(columns=) 指定列名重新命名

df.set_index('column_one') 修改索引

df[df[col] > 0.5] col列值大於0.5的行

df[(df[col] >0.5) & (df[col] <0.7)] col列值大於0.5小於0.7的行

df.sort_values(col1) 按照col1進行公升序進行排列

df.sort_values(col2,ascending=false) 根據col2進行降序排列

df.sort_values([col1,col2],ascending=[true,false]) 根據col1公升序col2降序聯合排列

df.groupby(col) 根據某列的值返回分組物件

df.groupby([col1,col2]) 根據多列的值返回分組物件

df.groupby(col1)[col2].mean() 根據col1值返回分組物件,求col2列的平均值

df.pivot_table(index=col1,values=[col2,col3],aggfunc=mean)

建立乙個按col1分組的資料透視表,並計算col2和col3的平均值

df.groupby(col1).agg(np.mean) 查詢每個唯一col1組的所有列的平均值

df.concat([df1,df2],axis=1) 將df2的資料載入df1右側(行必須相同)

df1.join(df2,on=col1,how='inner')sql的方式加入列df1與列在df2其中對於行col具有相同的值。how引數可以為'left','right','outer','inner'

df.describe() 顯示總體統計的彙總狀況

df.mean() 返回所有列的平均值

df.corr() 返回dataframe列之間的相關關係

df.count() 返回dataframe列中的非空值數量

df.max() 返回dataframe列中的最大值

df.min() 返回dataframe列中的最低值

df.median() 返回dataframe每列的中位數

df.std() 返回dataframe每列的標準差

Git 常用命令清單

git工作流程概圖 下面是我整理的常用 git 命令清單。幾個專用名詞的譯名如下。在當前目錄新建乙個git 庫 git init 新建乙個目錄,將其初始化為git 庫 git init project name git clone url git的設定檔案為.gitconfig,它可以在使用者主目錄...

Git 常用命令清單

二 分支的增刪查改 注意 不能刪除當前所在本地分支。三 檢視提交資訊日誌 四 版本回退 回退到上上版本 git reset hard head 回退到上上版本 git reset hard head 2 回退到某個版本 git reset hard 強制推送到遠端分支 git push f 注意 h...

Git常用命令清單

參考 git 常用命令清單 注意 不能刪除當前所在本地分支。回退到上上版本 git reset hard head 回退到上上版本 git reset hard head 2 回退到某個版本 git reset hard 強制推送到遠端分支 git push f 注意 head指向的版本是當前版本,...