特徵工程同值化檢測

2021-08-13 01:00:06 字數 877 閱讀 5238

在建模之前處理的資料裡面,如果特徵都是單一值,我們應該刪除。這樣的值沒有意義,沒有區分能力。

本次我們採取刪除特徵下面值全部唯一的;

'''刪除維度佔比過大值過高的比例的函式'''

defprimaryvalue_ratio

(data, ratiolimit = 1):

#按照命中率進行篩選

#首先計算每個變數的命中率,這個命中率是指 維度中佔比最大的值的佔比

recordcount = data.shape[0]

x =

#迴圈每乙個列,並取出出現頻率最大的那個值;index[0]是取列名,iloc[0]是取列名對應的值

for col in data.columns:

primaryvalue = data[col].value_counts().index[0]

ratio = float(data[col].value_counts().iloc[0])/recordcount

feature_primaryvalue_ratio = pd.dataframe(x,index = data.columns)

feature_primaryvalue_ratio.columns = ['primaryvalue_ratio','primaryvalue']

needcol = feature_primaryvalue_ratio[feature_primaryvalue_ratio['primaryvalue_ratio']'index'])]

return select_data

呼叫函式:

df2 =primaryvalue_ratio(df1)

特徵工程 特徵歸一化

為了消除資料特徵之間的量綱影響,需要對特徵進行歸一化 normalization 處理,使得不同特徵處於同乙個數量級,具有可比性 2.1 線性函式歸一化 min max scaling 對原始資料進行線性變換,使結果對映到 0,1 的範圍內,實現對原始資料的等比縮放。歸一化公式 其中,x為原始資料,...

特徵工程 缺失值處理

目前常用的三類處理方法 1.用平均值 中值 分位數 眾數 隨機值等替代。效果一般,因為等於人為增加了雜訊。2.先根據歐式距離或pearson相似度,來確定和缺失資料樣本最近的k個樣本,將這k個樣本的相關feature加權平均來估計該樣本的缺失資料。3.將變數對映到高維空間 a.對於離散型變數 男 女...

特徵工程之特徵歸一化

百面機器學習 為了消除資料特徵之間的量綱影響,使得不同指標之間具有可比性。在實際應用中,通過梯度下降法求解的模型通常是需要歸一化的。但對於決策樹模型並不適用。對原始資料進行線性變換,使結果對映到 0,1 實現對原始資料的等比縮放。公式如下 x no rm x xmi nxma x xm in x f...