機器學習變數轉換（定性變數定量變數）

為了更好地討論問題，將模型的自變數分類。在模型裡使用的變數可以分為兩類：數值型變數和類別型變數。如圖1所示。

數值型變數，在學術上被稱為定量變數（quantitative variable），如長度、收入、重量等。它們的數值表示具體的測量或計數。事實上，定量變數按是否連續可進一步細分為連續型變數和離散型變數。在一定區間內可以任意取值的變數叫連續型變數，比如人的身高、體重等；反之則是離散型變數，比如公司員工人數等。

類別型變數，也被稱為定性變數（categorical variable）。比如性別、省份、學歷、產品等級等。這類變數的取值通常是用文字而非數字來表示。比如對於性別這個變數，可能的取值為男、女。因此要將文字變數轉換為數字變數，並且保證對於轉換之後的變數，數**算是有意義的，這並不是一件容易的事情。通常針對乙個類別型變數，我們會用乙個數字去表示其中的乙個類別，但這樣的轉換方法並不能滿足要求：

對於定性變數，常見的處理方法有兩種：一種是將定性變數轉換為多個虛擬變數（dummy variable），另一種對將有序的定性變數轉換為定量變數。

正如前文中討論的，直接對定性變數數字編碼，得到的變數將無法進行有意義的數**算。那麼，相應的解決方法就是使得變換之後的變數不能直接做數**算。

前面討論的虛擬變數的方法是比較通用的處理方法。但這種方法有乙個很明顯的缺點：每個虛擬變數都是0或1，無法提供更多的資訊。特別是對於多個有序的定性變數，這會損失掉每個定性變數本身的順序資訊和定性變數間的關聯資訊。為了解決這個問題，常常根據類別的順序，將定性變數轉換為定量變數。

本文參考了

機器學習變數轉換（定性變數定量變數）

C語言常量變數進製轉換及資料溢位

機器學習多變數線性回歸

機器學習單變數線性回歸

機器學習變數轉換（定性變數 定量變數）

C語言 常量 變數 進製轉換及資料溢位

機器學習 多變數線性回歸

機器學習 單變數線性回歸

相關推薦

機器學習變數轉換（定性變數定量變數）

C語言常量變數進製轉換及資料溢位

機器學習多變數線性回歸

機器學習單變數線性回歸