WEKA中的資料預處理

2022-09-11 16:09:24 字數 631 閱讀 9449

資料預處理包括資料的缺失值處理、標準化、規範化和離散化處理。

資料的缺失值處理:weka.filters.unsupervised.attribute.replacemissin**alues對於數值屬性,用平均值代替缺失值,對於nominal屬性,用它的mode(出現最多的值)來代替缺失值。

標準化(standardize):類weka.filters.unsupervised.attribute.standardize。標準化給定資料集中所有數值屬性的值到乙個0均值和單位方差的正態分佈。

規範化(nomalize):類weka.filters.unsupervised.attribute.normalize。規範化給定資料集中的所有數值屬性值,類屬性除外。結果值預設在區間[0,1],但是利用縮放和平移引數,我們能將數值屬性值規範到任何區間。如:但scale=2.0,translation=-1.0時,你能將屬性值規範到區間[-1,+1]。

離散化(discretize):類weka.filters.supervised.attribute.discretize和weka.filters.unsupervised.attribute.discretize。分別進行監督和無監督的數值屬性的離散化,用來離散資料集中的一些數值屬性到分類屬性。

weka之資料預處理

weka在做資料預處理的時候針對attribute提供了多種方式,包括值的各種轉換,常用的如下 1.缺失值處理 weka.filters.unsupervised.attribute.replacemissingvalues。對於數值屬性,用平均值代替缺失值,對於nominal屬性,用它的mode ...

sklearn中的資料預處理

在sklearn中有這麼幾個常用的預處理方法。另外為了將資料預處理的各個階段連線起來還可以使用pipeline。類功能 說明standardscaler 無量綱化 標準化,基於特徵矩陣的列,將特徵值轉換至服從標準正態分佈 minmaxscaler 無量綱化 區間縮放,基於最大最小值,將特徵值轉換到 ...

ML中的資料預處理

如何快速讀取大量小檔案?做乙個比賽時,有上萬個很小的csv檔案,想要把他們合併起來,發現依次讀取非常慢。能想到的思路是多執行緒讀取。python多執行緒不熟,我直接寫了幾個python指令碼處理讀取不同的資料,然後同時執行,然後把每個指令碼合併的結果再進一步合併,得到最終的檔案。如何快速讀寫訓練集?...