機器學習為什麼離散化，離散化的優勢

1，為什麼離散化

2，離散化的優勢

1，特徵離散化

連續特徵離散化的基本假設，是預設連續特徵不同區間的取值對結果的貢獻是不一樣的。

特徵的連續值在不同的區間的重要性是不一樣的，所以希望連續特徵在不同的區間有不同的權重，實現的方法就是對特徵進行劃分區間，每個區間為乙個新的特徵。常用做法，就是先對特徵進行排序，然後再按照等頻離散化為n個區間。

2，離散化的優勢

援引知乎嚴林的回答2：

在工業界，很少直接將連續值作為邏輯回歸模型的特徵輸入，而是將連續特徵離散化為一系列0、1特徵交給邏輯回歸模型，這樣做的優勢有以下幾點：

（1），離散特徵的增加和減少都很容易，易於模型的快速迭代；

（2），稀疏向量內積乘法運算速度快，計算結果方便儲存，容易擴充套件；

（3），離散化後的特徵對異常資料有很強的魯棒性：比如乙個特徵是年齡》30是1，否則0。如果特徵沒有離散化，乙個異常資料「年齡300歲」會給模型造成很大的干擾；

（4），邏輯回歸屬於廣義線性模型，表達能力受限；單變數離散化為n個後，每個變數有單獨的權重，相當於為模型引入了非線性，能夠提公升模型表達能力，加大擬合；

（5），特徵離散化後，模型會更穩定，比如如果對使用者年齡離散化，20-30作為乙個區間，不會因為乙個使用者年齡長了一歲就變成乙個完全不同的人。當然處於區間相鄰處的樣本會剛好相反，所以怎麼劃分區間是門學問；

（6）特徵離散化以後，起到了簡化了邏輯回歸模型的作用，降低了模型過擬合的風險。

機器學習 為什麼離散化，離散化的優勢