資料分析課程

eda：在資料中經常會用到exploratory data analysis

屬性的數值分布檢視：

可以看數值的離群點在哪，也可以簡單進行資料分析，分布的範圍是否很大，是否可以看做類別屬性，是否可以分bin：

for i in ['parameter'+str(i) for i in range(1,11)]:
plt.figure(figsize=(14,8))
plt.scatter(x=range(len(train)), y=train[i], label='train')
plt.scatter(x=range(len(train),len(test)+len(train)), y=test[i], label='test')
plt.title(i)
plt.legend()#圖上寫圖例的意思,在圖的角落裡寫上不同的線是做什麼的
plt.show()

根據圖上的資訊，可以設定閾值，將那些樣例去掉。（train的裡面），對於test裡的這個屬性的離群點？

離群點：

點異常、值異常：如果乙個資料例項離其他資料太遠，那麼它就是異常的。包括某個特徵的值。

上下文異常：異常是上下文特定的。這種異常在時間序列資料中很常見。

資料不平衡：

在分類問題上通常會出現出具不平衡的問題，主要有兩種解決辦法：

第一種是正常分類訓練的時候loss函式的權重不一樣。如果使用sklearn裡自帶的線性回歸logisticregression(class_weight='balanced')或logisticregression(class_weight=)

第二種是資訊重取樣：

under_sample欠取樣，及將多的那個類按照一定要求的樣例。

tomek links:指的是乙個點周圍最近的點是另乙個類的點，在訓練的時候為了更容易訓練，這樣的點我們可能要去掉。

from imblearn.under_sampling import tomeklinks 
tl = tomeklinks(return_indices=true, ratio='majority') 
x_tl, y_tl, id_tl = tl.fit_sample(x, y) #print('removed indexes:', id_tl) 
plot_2d_space(x_tl, y_tl,x,y, 'tomek links under-sampling')

over-sampling過取樣的方法: smote 因為欠取樣可能刪除掉有用的資訊，一些異常點可能是有意義的（去掉可能會出現下溢），一些噪音在訓練的時候也是有意義的（泛化能力強）。所以在平時我們通常使用smote來增加樣例少的資料，之後使用tomek links將不易區分的樣例去掉。而平時我們常用的過取樣是簡單得將資料樣本複製或者簡單變換得到。這樣資訊量幾乎沒有增加。而smote是在少量樣本之間自動生成乙個樣本。

正常來說如果3個類別資料量的比例是1：2：3，我們不會重取樣。如果有的類別比例是1：8才會重取樣。

cross-validation交叉驗證：

正常的交叉驗證：k-folds: k折，訓練k次，之後最終test資料進入k個分類器，得到的結果求平均值。

資料分析課程

資料分析課程（2）pandas

資料分析資料分析概述

資料分析資料分析的誤區

資料分析課程

資料分析課程（2）pandas

資料分析 資料分析概述

資料分析 資料分析的誤區

相關推薦

資料分析資料分析概述

資料分析資料分析的誤區