特徵值預處理

2022-05-30 02:45:11 字數 2463 閱讀 1707

特點:

通過對原始資料的變換對映到預設為[0,1]之間

目的:是的某一特徵值不會對結果造成更大的影響===》幾個特徵值對結果影響權重相等的二十號要進行歸一化

缺點:異常點(在最大最小值之外)

對異常點的處理不好,魯棒性較差,只適合傳統的小資料場景

例項:

#

!/usr/bin/env python

#-*- coding: utf-8 -*-

#author tom

#匯入歸一化處理的包

from sklearn.preprocessing import

minmaxscaler

defmm(x):

"""對資料預處理(歸一化處理)

:return:

"""min_max=minmaxscaler()

data=min_max.fit_transform(x)

print

(data)

if__name__ == '

__main__':

l=[[90,2,10,40],

[60,4,15,45],

[75,3,13,46]]

mm(l)

結果:

改變歸一化範圍:

特點:方差越小資料越集中,方差越大越分散

在樣本足夠多的時候穩定,適合現代嘈雜的大資料場景

例項:

#

!/usr/bin/env python

#-*- coding: utf-8 -*-

#author tom

from sklearn.preprocessing import

standardscaler

defstander(x):

"""標準化縮放

:param x:

:return:

"""s=standardscaler()

data=s.fit_transform(x)

print

(data)

if__name__ == '

__main__':

l=[[1.,-1.,3.],

[2.,4.,2.],

[4.,6.,-1,]

]stander(l)

結果:

例項:

#

!/usr/bin/env python

#-*- coding: utf-8 -*-

#author tom

from sklearn.preprocessing import

imputer

import

numpy as np

defim(l):

"""缺失值的處理

:return:

"""#

nan nan都可以 用平均值替換

im=imputer(missing_values='

nan',strategy='

mean

',axis=0)

data=im.fit_transform(l)

print

(data)

if__name__ == '

__main__':

l=[[1,3],

[np.nan,2],

[4,6]]

im(l)

結果:

注意:缺失值的形式一定是np.nan

機器學習 資料預處理(特徵值轉化)

我們知道,mnist資料集中的樣本特徵是從0 255的灰度值,0表示白,而255表示黑,中間的數值代表不同深度的灰色。通過除以255的操作,我們可以把所有的特徵值限定到0 1之間,從而有利於模型計算,提高模型的準確率,這就是一種簡單的資料預處理 data preprocessing 資料預處理的方法...

特徵值 特徵值 特徵子空間和秩

矩陣的秩和它的特徵值有什麼關係呢?假設我得到了乙個矩陣的特徵值,如何根據特徵值推斷它的秩呢?我們知道,矩陣的秩代表維數,矩陣的特徵值有幾何重數和代數重數之分,其中幾何重數代表著該特徵值對應的特徵向量構成的空間 即特徵子空間 的維數,也就是在這個空間裡的所有向量經過矩陣變換 a 都不改變方向,只改變大...

特徵值 特徵向量

最近在學lsc,想蒐集一些特徵值和特徵向量的知識 1 特徵值和特徵向量 矩陣的基 定義 乙個m n的矩陣可以看成是n個列向量組成,這n個列向量的線性組合構成乙個列空間,而通常這n個列向量不是線性無關的,那麼求出這n個列向量中不相關的r個,可以稱這r列為矩陣列空間的基。基上投影的計算 要準確描述向量,...