機器學習之重頭戲 特徵預處理

2021-10-03 22:38:00 字數 382 閱讀 1571

折線型

折線無量綱化適用被評價事物呈現階段性變化即特徵值在不同階段變化對事物總體水平影響是不一樣的。

折線型無量綱方法比直線型方法更服務實際情況,但要缺點特徵值轉折點比較難,需要對資料有足夠理解和掌握

曲線型

模型無量綱化

綜合評價者的評價指標可以分為正向指標(即特徵值越大越好)、逆指標(即特徵值越小越好)、適度指標(即特徵值落在某個區間最好,大了、小了都不好),特徵彼此之間「好」與「壞」並沒有乙個標準,在很大程度上具有一定的模糊性,這時候可以選擇此方法對指標進行無量綱化處理

歸一化

maxabs歸一化

binarizeencode

機器學習 特徵預處理

通過一些轉換函式將特徵資料轉換成更加適合演算法模型的特徵資料的過程。特徵的單位或者大小相差較大,或者某特徵的方差相比其他的特徵要大出幾個數量級,容易影響 支配 目標結果,使得一些演算法無法學習到其它的特徵。對資料進行標準化或者歸一化可解決此類現象 資料標準化 是消除變數間的量綱關係,從而使資料具有可...

機器學習 特徵工程 特徵預處理

定義 將原始資料轉換為更好地代表 模型的潛在問題的特徵的過程,從而提高了對未知資料的 準確性。內容 主要有三部分 1 特徵抽取 2 特徵預處理 3 資料的降維 特徵預處理 通過特定的統計方法 數學方法 將資料轉換成演算法要求的資料。1 包含內容 2 sklearn特徵處理api sklearn.pr...

機器學習 資料特徵預處理

資料的特徵預處理 數值型資料 標準縮放 歸一化 標準化 缺失值 類別型資料 one hot編碼 時間型別 時間的切分 歸一化處理 統計人覺得幾個特徵同等重要時,要用歸一化 目的 使得乙個特徵不會對最終結果不會造成更大影響 特點 通過對原始資料進行變換,把資料對映到 預設 0,1 之間 公式 x x ...