寬頻離網使用者分析(2) 資料預處理和特徵抽取

2021-07-04 07:20:42 字數 1012 閱讀 9688

在討論資料預處理的方式之前,我們還是需要把具體的資料項列出來以便觀察。

這裡「多源」的意思就是這些資料來自後台不同的部門,有負責硬體網路的,也有維護使用者使用記錄的部門。

由於**任務注重的是precision值,為了保證**效能,很多資料不全的使用者我們直接篩掉。

這裡需要作出說明的是,埠速率和線路穩定的資訊,雖然埠速率和線路穩定程度每天都有一條記錄,但是這兩個指標基本沒有變化,因為他們和硬體線路的效能密切相關,硬體線路通常不會有很大的變遷。所以這兩個指標我們直接取他們的值作為特徵。終端機型號也不會變化,我們直接將n種型號作為離散值特徵。

這裡我們簡要介紹一下離散值特徵的處理,假設終端機型號有「華為」、「中興」、「tp-link」三種型別,我們對於這種取3個值的離散特徵怎麼處理呢?是不是讓這個特徵取0、1、2三種離散值對應三種情況呢?一般來說我們不這樣做,再舉個栗子:假設有另外乙個指標,叫「每天上線次數」,約定每個人每天的上線次數取值區間在0-2,那麼也就是可能取0、1、2三個值。

這兩種0、1、2完全不同,對於終端訊號特徵,0、1、2完全平等,只不過代表不同的型號而已,但是在數值特性上並不是這樣,不難發現0-2的距離大於0-1的距離,也就是說「華為和tp-link」的距離大於「華為和中興」的距離,這是不合理的。但是對於上線次數,我們發現0-2的取值是更加合理的,因為0次上線和1次上線的距離的確小於0次上線和2次上線的距離。

所以,對於這種情況,我們將終端型別作為3個特徵,如果終端是華為feature1、feature2、feature3。

特徵feature1

feature2

feature3

華為100

中興010

普聯001

通過將乙個無差別離散特徵(各種離散取值之間平等)的n中取值轉化成為n個特徵,這樣可以保證每種情況之間都是對稱的。

寬頻離網使用者分析(1) 任務介紹

接下來把幾個研究生階段的專案中所用到的關鍵技術分別做介紹,一來對這些專案的技術做個整理,理清思路,二來也為接下來的應聘做準備。這裡先介紹研一做的第乙個專案 寬頻離網使用者分析。巧婦難為無公尺之炊,在我們介紹真正的業務目的之前,我們還是先來看看我們有哪些資料,只有知道我們有了哪些菜,我們才能看菜吃飯 ...

資料探勘 資料預處理(2)

統計缺失值 train pd.read csv train.csv null columns train.columns train.isnull any train null columns isnull sum 得到dataframe中,資料型別為object的列 展示一列資料各數值分布情況 使...

Python資料分析 資料預處理

資料預處理主要包括 資料清洗 資料整合 資料變換和資料規約。資料清洗主要是刪除原始資料中的無關資料 重複資料,平滑噪音資料,篩選掉和挖掘主題無關的資料,處理缺失值和異常值。處理缺失值資料方法有三類 刪除記錄 資料插補和不處理。其中資料插補方法如下 1 均值 中數值 眾數插補 根據屬性型別,用均值 中...