機器學習python資料預處理

2021-08-14 18:23:32 字數 1417 閱讀 4355

from pandas import read_csv

from sklearn.preprocessing import standardscaler

from numpy import set_printoptions

from sklearn.preprocessing import minmaxscaler

from sklearn.preprocessing import normalizer

from sklearn.preprocessing import binarizer

filename = 'pima_data.csv'

names = ['preg','plas','pres','skin','test','mass','pedi','age','class']

data = read_csv(filename,names = names)

array = data.values

x = array[:,0:8]

y = array[:,8]

#-----調整資料尺度-----

'''將資料縮放到乙個指定範圍,或者對資料進行標準化並將資料都聚集到0附近,方差為1'''

transformer = minmaxscaler(feature_range=(0,1))

#資料轉換

newx = transformer.fit_transform(x)

set_printoptions(precision=3)

#print(newx)

#-----正態化資料-------

'''處理符合高斯分布的資料的手段,輸出以0為中位數,方差為1'''

transformer = standardscaler().fit(x)

newx = transformer.transform(x)

set_printoptions(precision=3)

#print(newx)

#------標準化資料-------

'''將每一行的資料的距離處理為1,適合處理稀疏資料'''

transformer = normalizer().fit(x)

newx = transformer.transform(x)

set_printoptions(precision=3)

#print(newx)

#-------二值資料------

'''使用值將資料轉化為二值,大於閾值為1,小於閾值為0'''

transformer = binarizer(threshold=0.0).fit(x)

newx = transformer.transform(x)

set_printoptions(precision=3)

#print(newx)

Python機器學習 資料預處理

最小 最大規範化對原始資料進行線性變換,變換到 0,1 區間 也可以是其他固定最小最大值的區間 每個特徵中的最小值變成了0,最大值變成了1.m import numpy as np from sklearn.preprocessing import minmaxscaler x np.array 1...

Python機器學習之資料預處理

coding utf 8 created on sat sep 29 22 39 26 2018 author lxiao217 email lxiao217 163.com 資料預處理 csv comma srpared values,以逗號為分隔符的數值 如果資料以csv檔案的形式儲存在硬碟上,...

python 機器學習之資料預處理

資料預處理方法,主要是處理資料的量綱和同趨勢化問題。import numpy as np from sklearn import preprocessing 零均值規範 data np.random.rand 3,4 隨機生成3行4列的資料 data standardized preprocessi...