pandas基本操作

2021-09-26 04:18:17 字數 2736 閱讀 4789

pd.read_csv(filename):從csv檔案匯入資料

pd.read_excel(filename):從excel檔案匯入資料

pd.read_sql(query, connection_object):從sql表/庫匯入資料

pd.read_json(json_string):從json格式的字串匯入資料

pd.read_html(url):解析url、字串或者html檔案,抽取其中的tables**

pd.read_clipboard():從你的貼上板獲取內容,並傳給read_table()

pd.dataframe(dict):從字典物件匯入資料,key是列名,value是資料

df.to_csv(filename):匯出資料到csv檔案

df.to_excel(filename):匯出資料到excel檔案

df.to_sql(table_name, connection_object):匯出資料到sql表

pd.dataframe(np.random.rand(20,5)):建立20行5列的隨機數組成的dataframe物件

pd.series(my_list):從可迭代物件my_list建立乙個series物件

df.index = pd.date_range('1900/1/30', periods=df.shape[0]):增加乙個日期索引

df.head(n):檢視dataframe物件的前n行

df.tail(n):檢視dataframe物件的最後n行

df.shape():檢視行數和列數, shape[0]: 行數

http:// df.info() :檢視索引、資料型別和記憶體資訊

df.describe():檢視數值型列的匯**計

s.value_counts(dropna=false):檢視series物件的唯一值和計數

df.columns(): 檢視列名

**根據座標等資訊檢視資料:**

df[col]:根據列名,並以series的形式返回列

df[[col1, col2]]:以dataframe形式返回多列

s.iloc[0]:按位置選取資料

s.loc['index_one']:按索引選取資料

df.iloc[0,:]:返回第一行

df.iloc[0,0]:返回第一列的第乙個元素

df.describe():檢視資料值列的匯**計

df.mean():返回所有列的均值

df.count():返回每一列中的非空值的個數

df.max():返回每一列的最大值

df.min():返回每一列的最小值

df.median():返回每一列的中位數

df.std():返回每一列的標準差

df.concat([df1, df2],axis=1):將df2中的列新增到df1的尾部

df1.join(df2,on=col1,how='inner'):對df1的列和df2的列執行sql形式的join

pd.merge(df1, df2, on='key', how='left'): df1與df2根據欄位key左連線

df.copy(deep=true): 複製物件的索引和資料

df[df[col] > 0.5]:選擇col列的值大於0.5的行

df.where(df[col] > 0.5): 選擇col列的值大於0.5的行

df.mask(df[col] > 0.5): 結果與where相反

df.where(df[col] > 0.5, 'high', 'low'): 高於0.5顯示high, 低於0.5的顯示low

df.sample(n=2000, random_state=123, axis=0): 隨機取樣2000條資料

df.sort_values(col1):按照列col1排序資料,預設公升序排列

df.sort_values(col2, ascending=false):按照列col1降序排列資料

df.sort_values([col1,col2], ascending=[true,false]):先按列col1公升序排列,後按col2降序排列資料

df.groupby(col):返回乙個按列col進行分組的groupby物件

df.groupby([col1,col2]):返回乙個按多列進行分組的groupby物件

df.groupby(col1)[col2]:返回按列col1進行分組後,列col2的均值

df.pivot_table(index=col1, values=[col2,col3], aggfunc=max):建立乙個按列col1進行分組,並計算col2和col3的最大值的資料透視表

df.groupby(col1).agg(np.mean):返回按列col1分組的所有列的均值

df.reset_index(drop=true): 對pandas重置索引

· 方法1

a.columns = ['a','b','c']

· 方法2

a.rename(columns=, inplace = true)

df[col].isin(['beijing']): 判斷某列的值是否為北京
參考:

整理pandas操作

python之pandas用法大全

Pandas基本操作

常用技巧 1 讀取檔案 2 初步設定 最大顯示1000行 最大顯示20列 最大精度 3 去重 所有列相同為重複 k1相同為重複,保留最後乙個 預設保留第乙個 4 顯示當前路徑 5 jupyter下畫圖 6 計算運算時間 7 建立新變數 8 刪除乙個變數 9 刪除一行觀測 10 顯示前三行 11 顯示...

pandas基本操作 1

這裡來介紹一下pandas。由於知識點比較多,決定分幾篇介紹。import numpy as np import pandas as pd pandas是基於numpy的乙個開源python庫。我認為相當於python版excel series是一種一維陣列,是基於ndarray設計的,但是他多了乙...

pandas的基本操作

資料讀寫 讀入mysql資料庫資料 匯入第三方模組 import pymysql 連線mysql資料庫 conn pymysql.connect host localhost user root password test database test port 3306 charset utf8 讀...