pandas入門 十一

2021-10-01 16:00:13 字數 2225 閱讀 7229

跟series中的值一樣,軸標籤也可以通過函式或對映進行轉換,從而得到乙個新的不同標籤的物件。軸還可以被就地修改,而無需新建乙個資料結構。

***********************************==

跟series一樣,軸索引也有乙個map方法

將其賦值給index,這樣就可以對dataframe進行就地修改

想要建立資料集的轉換版(而不是修改原始資料),比較實用的方法是 rename

特別說明一下,rename可以結合字典型物件實現對部分軸標籤的更新

rename可以實現複製dataframe並對其索引和列標籤進行賦值。如果希望就地修改某個資料集,傳入inplace=true即可

為了便於分析,連續資料常常被離散化或拆分為「面元」(bin)。

有一組人員資料,將它們劃分為不同的年齡組

***********************************==

將這些資料劃分為「18到25」、「26到35」、「35到60」以及「60以上」幾個面元。 要實現該功能,使用pandas的cut函式

pandas返回的是乙個特殊的categorical物件。展示了pandas.cut劃分的面元。 將其看做一組表示面元名稱的字串。它的底層含有乙個表示不同分類名稱的型別陣列,以及乙個codes屬性中的年齡資料的標籤

pd.value_counts(cats)是pandas.cut結果的面元計數。

***********************************==

跟「區間」的數學符號一樣,圓括號表示開端,而方括號則表示閉端(包括)。哪邊是閉端可以通過right=false進行修改

通過傳遞乙個列表或陣列到labels,設定自己的面元名稱

如果向cut傳入的是面元的數量而不是確切的面元邊界,則它會根據資料的最小值和最大值計算等長面元。

將一些均勻分布的資料分成四組

***********************************==

選項precision=2,限定小數只有兩位。 qcut是乙個非常類似於cut的函式,它可以根據樣本分位數對資料進行面元劃分。根 據資料的分布情況,cut可能無法使各個面元中含有相同數量的資料點。而qcut由於使用的是樣本分位數,因此可以得到大小基本相等的面元

***********************************==

與cut類似,你也可以傳遞自定義的分位數(0到1之間的數值,包含端點)

學習Pandas 十一

英文原文 11 lesson 從多個 excel 檔案中讀取資料並且在乙個 dataframe 將這些資料合併在一起。import pandas as pd import matplotlib import os import sys matplotlib inline print python v...

Pandas 快速入門

pandas其實很簡單,共有三種資料結構。其中一維為series,二維為dataframe,三維為panel.先說series,numpy陣列,python列表等都可以生成series。它的結構分為兩部分,索引和值。獲取索引的方式為 index 方法,獲取值得方式為values 方法。而資料框又多乙...

pandas入門 十三

另一種常用於統計建模或機器學習的轉換方式是 將分類變數轉換為 啞變數 或 指標矩陣 dataframe的某一列中含有k個不同的值,則可以派生出乙個k列矩陣或 dataframe 其值全為1和0 pandas有乙個get dummies函式可以實現該功能。使用之前的乙個dataframe例子 給指標d...