python實現三種資料預處理

2021-08-19 01:31:00 字數 2479 閱讀 2091

主要對資料進行了三種預處理:

1.  區間縮放

讀取資料、資料處理、儲存資料

import pandas as pd

import numpy as np

from sklearn import preprocessing

import matplotlib.pyplot as plt

plt.rcparams['font.sans-serif'] =['simhei'] #用來正常顯示中文標籤

plt.rcparams['axes.unicode_minus'] =false #用來正常顯示負號

filename = 'hits persecond_t20m_130.csv'

data_f = pd.read_csv(filename)#二維dataframe格式

#print(data_f)

plt.plot(data_f[200:600])

plt.title('資料預處理前')

plt.show()

print('***2.資料歸一化,對映到區間[min,max]:')

min_max_scaler =preprocessing.minmaxscaler(feature_range=(0,10))

data_mi_ma =min_max_scaler.fit_transform(data_f)

plt.plot(data_mi_ma[200:600])

plt.title('資料預處理後')

plt.show()

print(type(data_mi_ma))

data_ = pd.dataframe(data_mi_ma)

print(type(data_))

data_.to_csv("afterpre.csv",index=0,header=0)#index=0,不保留索引列,header=0不保留列名

注:將處理完的資料重新儲存為csv檔案時,需要先將資料轉化為dataframe格式

2.  標準化

importpandas as pd

importnumpy as np

fromsklearn import preprocessing

importmatplotlib.pyplot as plt

plt.rcparams['font.sans-serif']= ['simhei'] #用來正常顯示中文標籤

plt.rcparams['axes.unicode_minus']= false #用來正常顯示負號

filename= 'hits per second_t20m_130.csv'

data_f =pd.read_csv(filename)#二維dataframe格式

#print(data_f)

plt.plot(data_f[200:600])

plt.title('資料處理前')

plt.show()

data_sta= preprocessing.scale(data_f)

#print(data_nor)

plt.plot(data_sta[200:600])

plt.title('資料處理後')

plt.show()

print(type(data_sta))

data_ =pd.dataframe(data_mi_ma)

print(type(data_))

data_.to_csv("afterpre.csv",index=0,header=0)#index=0,不保留索引列,header=0不保留列名

3.  對數

importpandas as pd

importnumpy as np

importmatplotlib.pyplot as plt

plt.rcparams['font.sans-serif']= ['simhei'] #用來正常顯示中文標籤

plt.rcparams['axes.unicode_minus']= false #用來正常顯示負號

filename= 'hits per second_t20m_130.csv'

data_f =pd.read_csv(filename)#二維dataframe格式

#print(data_f)

plt.plot(data_f[200:600])

plt.title('資料預處理前')

plt.show()

data_log= np.log(data_f)

plt.plot(data_log[200:600])

plt.title('資料預處理前')

plt.show()

data_log.to_csv("afterpre.csv",index=0,header=0)#index=0,不保留索引列,header=0不保留列名

Python中的三種資料結構

python中,有3種內建的資料結構 列表 元組和字典。1.列表 list是處理一組有序專案的資料結構,即你可以在乙個列表中儲存乙個序列的專案。列表中的專案。列表中的專案應該包括 在方括號中,這樣python就知道你是在指明乙個列表。一旦你建立了乙個列表,你就可以新增,刪除,或者是搜尋列表中的專案。...

tensorflow的三種資料輸入

tensorflow的資料讀取一共有三種方式 供給資料 feeding 在tensorflow程式執行的每一步,讓python 來供給資料 從檔案讀取資料 在tensorflow圖的起始,讓乙個輸入管線從檔案中讀取資料 預載入資料 在tensorflow圖中定義常量或變數來儲存所有資料 僅僅適用於資...

EF的三種資料載入方式

ef的關聯實體載入有三種方式 lazy loading,eager loading,explicit loading,其中lazy loading和explicit loading都是延遲載入。一 延遲載入 預設 lazy loading使用的是動態 預設情況下,如果poco類滿足以下兩個條件,ef...