寬頻離網使用者分析（2）資料預處理和特徵抽取

在討論資料預處理的方式之前，我們還是需要把具體的資料項列出來以便觀察。

這裡「多源」的意思就是這些資料來自後台不同的部門，有負責硬體網路的，也有維護使用者使用記錄的部門。

由於**任務注重的是precision值，為了保證**效能，很多資料不全的使用者我們直接篩掉。

這裡需要作出說明的是，埠速率和線路穩定的資訊，雖然埠速率和線路穩定程度每天都有一條記錄，但是這兩個指標基本沒有變化，因為他們和硬體線路的效能密切相關，硬體線路通常不會有很大的變遷。所以這兩個指標我們直接取他們的值作為特徵。終端機型號也不會變化，我們直接將n種型號作為離散值特徵。

這裡我們簡要介紹一下離散值特徵的處理，假設終端機型號有「華為」、「中興」、「tp-link」三種型別，我們對於這種取3個值的離散特徵怎麼處理呢？是不是讓這個特徵取0、1、2三種離散值對應三種情況呢？一般來說我們不這樣做，再舉個栗子：假設有另外乙個指標，叫「每天上線次數」，約定每個人每天的上線次數取值區間在0-2，那麼也就是可能取0、1、2三個值。

這兩種0、1、2完全不同，對於終端訊號特徵，0、1、2完全平等，只不過代表不同的型號而已，但是在數值特性上並不是這樣，不難發現0-2的距離大於0-1的距離，也就是說「華為和tp-link」的距離大於「華為和中興」的距離，這是不合理的。但是對於上線次數，我們發現0-2的取值是更加合理的，因為0次上線和1次上線的距離的確小於0次上線和2次上線的距離。

所以，對於這種情況，我們將終端型別作為3個特徵，如果終端是華為feature1、feature2、feature3。

特徵feature1

feature2

feature3

華為100

中興010

普聯001

通過將乙個無差別離散特徵（各種離散取值之間平等）的n中取值轉化成為n個特徵，這樣可以保證每種情況之間都是對稱的。

寬頻離網使用者分析（2）資料預處理和特徵抽取

寬頻離網使用者分析（1）任務介紹

資料探勘資料預處理（2）

Python資料分析資料預處理

寬頻離網使用者分析（2） 資料預處理和特徵抽取

寬頻離網使用者分析（1） 任務介紹

資料探勘 資料預處理（2）

Python資料分析 資料預處理

相關推薦

寬頻離網使用者分析（2）資料預處理和特徵抽取

寬頻離網使用者分析（1）任務介紹

資料探勘資料預處理（2）

Python資料分析資料預處理