機器學習補漏之歸一化

1. 只能在訓練集當中，然後應用到測試集上面。

不能兩部分一起歸一化，也不能各自用自己資料歸一化。因為我們預設兩部分都有足夠的資料，並且資料分布相同。當然最重要的是，測試集是不可以偷看的，更不要說計算這些統計資料。sklearn.preprocessing.standardscaler方便把訓練集上面的操作和資料對測試集也做同樣操作，很方便。知乎上有乙個很好的回答。

2. 分類

其實最常用的就兩類：

1. z-score標準化(或零－均值標準化)

2.min-max

根據部落格

- y=( (x-minvalue) / (maxvalue-minvalue) )(new_maxvalue-new_minvalue)+new_minvalue

- 使用這種方法的目的包括：對於方差非常小的屬性可以增強其穩定性；維持稀疏矩陣中為0的條目。

3.使用場景

涉及距離度量的多需要歸一化，比如svm和knn

機器學習之歸一化

之前我們討論了幾個機器學習的模型，線性回歸模型 linear regression 和邏輯回歸模型 logistic regression 這一次我們討論一下關於模型資料擬合的問題以及歸一化方法 regularization 過擬合問題 the problem of overfitting 如果我們...

機器學習之資料歸一化

機器學習中，資料歸一化是非常重要，如果不進行資料歸一化，可能會導致模型壞掉或者訓練出乙個奇怪的模型。現在有乙個訓練資料集，包含兩個樣本，內容如下腫瘤大小 cm 發現時間 day 樣本11 200樣本2 5100 以 k 近鄰演算法為例，發現時間的數值比腫瘤大小的數值大很多，樣本間的距離被發...

機器學習之特徵歸一化（normalization）

一引子對房屋售價進行時，我們的特徵僅有房屋面積一項，但是，在實際生活中，臥室數目也一定程度上影響了房屋售價。下面，我們有這樣一組訓練樣本房屋面積英呎臥室數量間售價美元 2104 3 399900 1600 3 329900 2400 3 369000 1416 2 232000 3...

機器學習補漏之歸一化

機器學習之 歸一化

機器學習之資料歸一化

機器學習之特徵歸一化（normalization）

相關推薦

機器學習之歸一化