觀察資料的分布

2021-10-20 15:16:55 字數 1263 閱讀 3989

在這裡記錄一些在學習,比賽中用到的 eda 方法,當作備忘錄吧…

有些缺失值不是 nan,還可能是 -1, inf, 『-』 等特殊數字字元

對於 object

首先通過train_data.info()檢視有哪些 object

對特定的列train_data[col].value_counts()檢視值分布

若出現 『-』 等特殊字元就看作缺失值,可先設定為 nan 或 『nan』 好處理

train_data[col]

.replace(

'-', np.nan, inplace=

true

)

然後繪圖好觀察缺失值分布情況

train_missing = train_data.isnull().

sum(

)train_missing = train_missing[train_missing>0]

train_missing.sort_values(inplace=

true

)train_missing.plot.bar(

)

測試集也做一遍

可以通過繪圖檢視資料的分布情況

對於取值很少,且分布嚴重失衡的進行刪除

plt.figure(figsize=(15

,9))

cols =

6rows =

len(train_data.columns)

//cols+

1i =

1for col in train_data.columns:

plt.subplot(rows, cols, i)

sns.distplot(train_data[col]

) i +=

1plt.tight_layout(

)

做回歸問題時,觀察 label 的分布情況,要滿足正態分佈

sns.distplot(train_data[

'price'

])

然後使用對數變換,注意有沒有 0,考慮加 1

train_data[

'price'

]= np.log(train_data[

'price'

])

python 如何觀察資料分布 describe

如何觀察資料分布 describe train.head 5 顯示前5行資料 train.tail 5 顯示後5行 train.columns 檢視列名 train.info 檢視各字段的資訊 train.shape 檢視資料集行列分布,幾行幾列 train.describe 檢視資料的大體情況 從...

資料分布 Greenplum資料分布和分割槽策略

greenplum是乙個大規模並行處理資料庫,它由乙個master和多個segment組成,其資料按照設定的分布策略分布於各個segment上。資料表的單個行會被分配到乙個或多個segment上,但是有這麼多的segment,它到底會被分到哪個或哪些segment上呢?分布策略會告訴我們。分布策略 ...

分布式系統的資料分布方式

雜湊方式 常見雜湊方式 使用者id 機器 組 數 分配到0 機器 組 數 1 上 優點 只要雜湊函式的雜湊特性較好,雜湊方式可以較為均勻的將資料分布到集群中去。缺點 可擴充套件性不高,一旦集群規模需要擴充套件,則幾乎所有的資料需要被遷移並重新分布。一旦某資料特徵值的資料嚴重不均,容易出現 資料傾斜 ...