白話總結《特徵工程之連續變離散》

目前業務所用模型都需要把連續的特徵轉化為離散值，特做總結如下：

分桶的個數一般由特徵意義和經驗人為設定，比如年齡可以根據小學，初中，高中，大學等分桶，

此處以日期舉例：

優勢：連續性特徵拆分成乙個四元素向量，那麼模型現在可以學習四個單獨的權重，與單個權重相比，離散的向量特徵，由於只有乙個元素置位 (1)，其他三個元素清零 (0)，分桶可以讓模型清楚地區分不同桶的類別。即，模型可以為每個單獨的分桶類別學習單獨的權重，解耦。

每個桶表示乙個唯一的整數或類別。

使用雜湊的方法，將原始類別轉化為指定類別個數，如將『然後再one-hot。

如我們有一萬個單詞，實踐中不允許有一萬維的one--hot向量怎麼辦？只能通過構建雜湊函式，先給每個單詞賦予乙個標籤，如1,2,3,4… 然後通過雜湊得到雜湊值（雜湊值的個數可以通過雜湊函式的構造限定），可以將一萬個單詞雜湊為100個雜湊值，然後再做one-hot。

如果幾個類別被雜湊到了同乙個雜湊值怎麼辦？雜湊衝突！即獲得同乙個類別。——> 與機器學習中許多有悖常理的現象一樣，雜湊通常可以在實踐中很好地執行，用就完事了。

主要參考部落格：