機器學習補漏之歸一化

2021-08-20 01:55:36 字數 482 閱讀 9608

1. 只能在訓練集當中,然後應用到測試集上面。

不能兩部分一起歸一化, 也不能各自用自己資料歸一化。 因為我們預設兩部分都有足夠的資料,並且資料分布相同。當然最重要的是,測試集是不可以偷看的,更不要說計算這些統計資料。sklearn.preprocessing.standardscaler方便把訓練集上面的操作和資料對測試集也做同樣操作,很方便。知乎上有乙個很好的回答。

2. 分類

其實最常用的就兩類:

1. z-score標準化(或零-均值標準化)

2.min-max

根據部落格

- y=( (x-minvalue) / (maxvalue-minvalue) )(new_maxvalue-new_minvalue)+new_minvalue

- 使用這種方法的目的包括:對於方差非常小的屬性可以增強其穩定性; 維持稀疏矩陣中為0的條目。

3.使用場景

涉及距離度量的多需要歸一化,比如svm和knn

機器學習之 歸一化

之前我們討論了幾個機器學習的模型,線性回歸模型 linear regression 和邏輯回歸模型 logistic regression 這一次我們討論一下關於模型資料擬合的問題以及歸一化方法 regularization 過擬合問題 the problem of overfitting 如果我們...

機器學習之資料歸一化

機器學習中,資料歸一化是非常重要,如果不進行資料歸一化,可能會導致模型壞掉或者訓練出乙個奇怪的模型。現在有乙個訓練資料集,包含兩個樣本,內容如下 腫瘤大小 cm 發現時間 day 樣本11 200樣本2 5100 以 k 近鄰演算法為例,發現時間 的數值比 腫瘤大小 的數值大很多,樣本間的距離被 發...

機器學習之特徵歸一化(normalization)

一 引子 對房屋售價進行 時,我們的特徵僅有房屋面積一項,但是,在實際生活中,臥室數目也一定程度上影響了房屋售價。下面,我們有這樣一組訓練樣本 房屋面積 英呎 臥室數量 間 售價 美元 2104 3 399900 1600 3 329900 2400 3 369000 1416 2 232000 3...