機器學習資料預處理

1 連續資料特徵離散化的方法

由於lr 中模型表達能力有限，可以通過特徵離散化來提高非線性學習能力。

主要方法:

1）等距離散：取值範圍均勻劃分成n 等分，每份的間距相等。

2) 等頻離散：均勻分為n 等分，每份內包含的觀察點數相同

3) 優化離散：3-1 卡方檢驗方法: 統計樣本的實際觀測值與理論判斷值之間的離散程度，卡方值越大，越不符合，卡方值越小，偏差越小，越趨於符合。

**方法：找到乙個**點看，左右2個區間，在目標值上分布是否有顯著差異，有顯著差異就**，否則就忽略，這個點可以沒詞找差異最大的點。

合併方法：先劃分，如果很小單元區間，按順序合併在目標值上分布不顯著的相鄰區間，直接收斂。

2 資訊增益方法:

**方法：找到乙個**點看，左右2個區間，看**前後資訊增益變化閾值，如果差值超過閾值( 正值，**前-**後資訊熵),，則**，每次找差值最大的點做**點，直到收斂，

合併方法：先劃分，如果很小單元區間，按順序合併資訊增益小於閾值的相鄰區間，直到收斂。

機器學習資料預處理

均值為0，標準差為1 from sklearn import preprocessing scaler preprocessing.standardscaler scaler.fit transform x 對原始資料進行線性變換，變換到 0,1 區間也可以是其他固定最小最大值的區間 from s...

機器學習python資料預處理

from pandas import read csv from sklearn.preprocessing import standardscaler from numpy import set printoptions from sklearn.preprocessing import minm...

機器學習之資料預處理

1.為什麼需要資料預處理？原始資料來自於現實場景，常常有以下幾個特徵髒亂差缺。髒體現在原始資料裡混雜許多雜訊資料，亂體現在原始資料各維度量綱不同一。差體現在資料錯誤出現不尋常不一致，這和髒相似。缺體現在原始資料的某些資料段值的缺失。2.資料預處理的方法。歸一化標準化和中心化是資料預處理中...

機器學習 資料預處理

機器學習 資料預處理

機器學習python資料預處理

機器學習之資料預處理

相關推薦

機器學習資料預處理

機器學習資料預處理