pandas打卡學習之資料重構

有時候，用於處理的資料可能是分塊儲存的，有可能儲存在多個檔案中。這時候，就需要使用連線方法pd.concat()進行連線。

concat()方法需要指定軸，預設是y軸連線，如果需要x軸連線，可以指定axis=1。

concat使用的是等值連線，鍵預設為第一列，也可以指定。如果兩列表資料沒有共同的列，也會成功進行縱向連線，缺失資料會記為nan

接下來學習stack函式，這個函式可以將dataframe這個二維表表示為乙個巢狀的series，其實就類似於二維陣列在記憶體中的儲存，先存行，再存列。

再來看看另乙個非常強大的功能groupby，用於進行統計。

groupby之後，相當於就是把源資料中大量的資料變成了幾個組的資料。但是，groupby使用之後，獲取的並不是dataframe物件，而是乙個中間物件dataframegroupby物件。為什麼不是直接獲取結果，因為dataframegroupby物件並沒有捨棄原始資料，而是在原始資料中加入了分組資訊。

dataframegroupby物件的子物件也是dataframegroupby物件，而且，這種物件是無法輸出的，無論是使用print，還是直接在除錯終端輸入。

當對dataframegroupby物件使用mean方法時，程式才會開始計算每組的平均值，然後再轉換為dataframe物件。

不即時運算而是生成中間物件的原因，就是因為這個中間物件還能進行很多種類的數值計算，比如求和。還有agg。

agg操作，就是為dataframegroupby的各列每列指定乙個處理方法，比如a列求乙個中位數，b列求乙個平均數等等。

groupby也可以使用一組列作為輸入，此時，轉換為的資料就會以多維表來進行表示。

組合起來，就可以計算最大存活率。

Pandas學習打卡

import numpy as np import pandas as pd df pd.read csv f data drugs.csv index col state county sort index result pd.pivot table df,index state county s...

pandas學習之缺失資料

今天總結下缺失資料處理心得。在拿到資料拼接資料彙總資料時，一定要使用df.isna sum 或df.isna mean 觀察是否存在缺失資料，後乙個方法還可以檢測出缺失資料佔比。我今天在使用groupby彙總資料時，忘記檢視缺失資料，導致結果不全，白白浪費1個小時時間因時間關係，我就簡單講解下...

Pandas學習之文字資料

import numpy as np import pandas as pd pd.series 1 1 0 1 1 1 dtype object 上面的資料型別為 object，將其轉化為string型別 pd.series 1 1 astype str astype string 0 1 1 1...

pandas打卡學習之資料重構

Pandas學習打卡

pandas學習之缺失資料

Pandas學習之文字資料

相關推薦