資料預處理 常見的幾種方法

2021-08-25 05:14:11 字數 1552 閱讀 6738

給大家安利一款朋友開發的自研國產資料分析基礎工具,一鍵式自動分析,自動生成分析模板,5分鐘掌握主流61個統計類數學模型(幾乎涵蓋spss絕大部分功能),以及23個有監督機器學習(包括隨機森林,svm,xgboost等)

ps:巨方便簡單上手,貌似現在是免費

官網:www.mpaidata.com   mpai資料科學平台

資料的預處理又稱屬性值的規範化。

屬性值具有多種型別,包括效益型、成本型、以及區間型等。這三種屬性,效益型屬性越大越好,成本型屬性越小越好,區間型屬性是在某個區間最佳。

在進行決策時,一般要進行屬性值的規範化,主要有如下三個作用:①屬性值有多種型別,上述三種屬性放在同乙個表中不便於直接從數值大小判斷方案的優劣,因此需要對資料進行預處理,使得表中任一屬性下效能約優的方案變換後的屬性值越大。②非量綱化,多屬性決策與評估的困難之一是屬性間的不可公度性,即在屬性值表中的每一列數具有不同的單位(量綱)。即使對同一屬性,採用不同的計量單位,表中的數值也就不同。在用各種多屬性決策方法進行分析評價時需要排除量綱的選用對決策或評估結果的影響,這就是非量綱化。③歸一化,屬性值表中不同指標的屬性值的數值大小差別很大,為了直觀,更為了便於採用各種多屬性決策與評估方法進行評價,需要把屬性值表中的數值歸一化,即把表中數值均變換到[0,1]區間上。

此外,還可在屬性規範時用非線性變換或其他辦法,來解決或部分解決某些目標的達到程度與屬性值之間的非線性關係,以及目標間的不完全補償性。常用的屬性規範化方法有以下幾種。

(1)線性變換。原始的決策矩陣為

採用上式進行屬性規範化時,經過變換的最差屬性值不一定為0,最優屬性值為1。

若為成本型屬性,則

採用上式進行屬性規範化時,經過變換的最優屬性值不一定為1,最差屬性值為0。

(2)標準0—1變換。為了使每個屬性變換後的最優值為1且最差值為0,可以進行標準0—1變換。對效益型屬性,令

對成本性屬性

(3)區間型屬性的變換。有些屬性既非效益性又非成本型,如師生比。顯然這種屬性不能採用前面介紹的兩種方法處理。

設給定的最優屬性

變換後的屬性值

(4)向量規範化

無論成本型屬性還是效益型屬性,向量規範化均用下式進行變換:

它與前面介紹的幾種變換不同,從變換後的屬性值的大小上無法分辨屬性值的優劣。它的最大特點是,規範化後,各方案的同一屬性值的平方和為1,因此常用於計算各種方案與某種虛擬方案(如理想點或負理想點)的歐幾里得距離的場合。

(5)標準化處理。在實際問題中,不同變數的測量單位往往是不一樣的。為了消除變數的量綱效應,使每個變數都具有同等的表現力,資料分析中常對資料進行標準化處理,即

式中

python中常見的資料預處理方法

以下通過sklearn的preprocessing模組 from sklearn.preprocessing import standardscaler 變換後各維特徵有0均值,單位方差。也叫z score規範化 零均值規範化 計算方式是將特徵值減去均值,除以標準差。1 sklearn.prepro...

資料預處理方法

一.資料清理 1.填出缺失值 無記錄值資料 1 忽略元祖 缺少類標號時使用,適用於多個屬性值缺失 2 人工填寫缺失值 3 用屬性的均值填充缺失值 4 用全域性常量填充 unknow 5 用同樣本的屬性均值填充缺失值 6 使用最可能的值填充缺失值 可由回歸 貝葉斯形式化的基於推理的工具或決策樹歸納確定...

資料預處理方法

原文 資料預處理有四個任務,資料清洗 資料整合 資料 變換和資料規約。一 資料清洗 1.缺失值處理 處理缺失值分為三類 刪除記錄 資料補差和不處理。資料補插方法 1.補插均值 中位數 眾數 2.使用固定值 3.最近鄰補插 4.回歸方法 5.插值法 插值法介紹 1 拉格朗日插值法 2 牛頓插值法 需要...