機器學習之重頭戲特徵預處理

折線型

折線無量綱化適用被評價事物呈現階段性變化即特徵值在不同階段變化對事物總體水平影響是不一樣的。

折線型無量綱方法比直線型方法更服務實際情況，但要缺點特徵值轉折點比較難，需要對資料有足夠理解和掌握

曲線型

模型無量綱化

綜合評價者的評價指標可以分為正向指標(即特徵值越大越好)、逆指標(即特徵值越小越好)、適度指標(即特徵值落在某個區間最好，大了、小了都不好)，特徵彼此之間「好」與「壞」並沒有乙個標準，在很大程度上具有一定的模糊性，這時候可以選擇此方法對指標進行無量綱化處理

歸一化

maxabs歸一化

binarizeencode

通過一些轉換函式將特徵資料轉換成更加適合演算法模型的特徵資料的過程。特徵的單位或者大小相差較大，或者某特徵的方差相比其他的特徵要大出幾個數量級，容易影響支配目標結果，使得一些演算法無法學習到其它的特徵。對資料進行標準化或者歸一化可解決此類現象資料標準化是消除變數間的量綱關係，從而使資料具有可...

定義將原始資料轉換為更好地代表模型的潛在問題的特徵的過程，從而提高了對未知資料的準確性。內容主要有三部分 1 特徵抽取 2 特徵預處理 3 資料的降維特徵預處理通過特定的統計方法數學方法將資料轉換成演算法要求的資料。1 包含內容 2 sklearn特徵處理api sklearn.pr...

資料的特徵預處理數值型資料標準縮放歸一化標準化缺失值類別型資料 one hot編碼時間型別時間的切分歸一化處理統計人覺得幾個特徵同等重要時，要用歸一化目的使得乙個特徵不會對最終結果不會造成更大影響特點通過對原始資料進行變換，把資料對映到預設 0,1 之間公式 x x ...

機器學習之重頭戲 特徵預處理