pandas基礎入門

2021-10-05 06:55:44 字數 1724 閱讀 4615

問題1:

series 常用屬性為 values , index , name , dtype , 還有一些訪問資料的方法。

dataframe 常用屬性和方法:

pd.dataframe() 構造乙個 dataframe

df.rename() 修改行名和列名

屬性 index, columns, values, shape,

列的刪除 drop, del, pop

列的新增 assign

轉至 t

問題2:

經過實驗,value_counts 不會統計缺失值

問題3:

idxmax <—> idxmin

nlargest <—> nsmallest

問題4:

sum() 累計求和

mean() 求算術平均值

median() 求中位數

mad() 平均絕對偏差

min() 最小值

max() 最大值

abs() 取絕對值

std() 標準差

var() 方差

quantile(.05, .25) 用於構建分位數

cummax 累積最大值,可用於找出每一行或每一列的最大值

cumsum 累加值

cumprod 累乘

問題5:

df.mean(axis=1) 是對每一行求平均值

df.mean() 預設為 df.mean(axis=0) 是對每一列求平均值

axis=1 代表遍歷列,對每一行進行操作

axis=0 代表遍歷行,對每一列進行操作

練習1:

一共出現了 564 個任務

df[『name』].nunique()

tyrion lannister 說了最多的話

df[『name』].value_counts().idxmax()

tyrion lannister 說的單詞最多

names = df[『name』]

sentences = df[『sentence』]

def find_words(s):

cnt = s.count(』 ') + 1

return cnt

i = 0

d = dict()

max_words = 0

max_name = 『』

while i < len(names):

d[names[i]] = d.get(names[i], 0) + find_words(sentences[i])

if d[names[i]] > max_words:

max_name = names[i]

max_words = d[names[i]]

i = i + 1

print(max_name, max_words)

練習2:

(『jump shot』, 『jump shot』)

pd.series(list(zip(df[『action_type』], df[『combined_shot_type』]))).value_counts().index[0]

『sas』

pd.series(list(zip(*(pd.series(list(zip(df[『game_id』], df[『opponent』]))).unique()).tolist()))[1]).value_counts().index[0]

Pandas基礎入門(4)Panel

面板 panel 是3d容器的資料。面板資料一詞 於計量經濟學,部分源於名稱 pandas pan el da ta s。3軸 axis 這個名稱旨在給出描述涉及面板資料的操作的一些語義。它們是 items axis 0,每個專案對應於內部包含的資料幀 dataframe major axis ax...

Pandas 快速入門

pandas其實很簡單,共有三種資料結構。其中一維為series,二維為dataframe,三維為panel.先說series,numpy陣列,python列表等都可以生成series。它的結構分為兩部分,索引和值。獲取索引的方式為 index 方法,獲取值得方式為values 方法。而資料框又多乙...

pandas入門 十一

跟series中的值一樣,軸標籤也可以通過函式或對映進行轉換,從而得到乙個新的不同標籤的物件。軸還可以被就地修改,而無需新建乙個資料結構。跟series一樣,軸索引也有乙個map方法 將其賦值給index,這樣就可以對dataframe進行就地修改 想要建立資料集的轉換版 而不是修改原始資料 比較實...