第二講 資料預處理

2022-09-26 04:54:08 字數 559 閱讀 5267

(1)資料集由資料物件構成,資料物件由屬性來描述,屬性的型別由屬性可取的值決定

(2)標稱型別,二元屬性(對稱,非對稱),序數屬性,數值屬性: 離散/連續屬性

(3)資料的統計描述

中心性度量: 均值,中值,眾數,中位數

離散性度量: 方差,標準差,分位數

注: 分位數: 五數概括

最小值,q1, 中值,q3,最大值(去除離散點以後)

均值圖→五數概括圖

爬蟲技術

資料質量: 正確性,唯一性

正確性:

(1)完整性(完備性(模式符合性,統一性),有效性)

(2)一致性

(3)密度

唯一性:。。。

語法類,語義類

資料清洗具體技術:

資料解析方式(誤差距離最近)

資料型別轉換(男女→01)

資料去重

物理式,虛擬式

需要克服的困難:

異構性: 聯邦資料庫(需要轉換再轉換合併),資料倉儲模式(完全合併,更新問題,增量式更新),中介者模式(查詢轉換,不合併))

實體解析合併方法

資料預處理(第二課居多)

1 篩選資料select函式,返回特定列的資料 sub data select iris,sepal.length,sepal.width 第乙個引數為資料來源,剩下的引數為要篩選出來的列 2 篩選函式filter函式,返回滿足條件的特定行的資料 filter iris,species setosa...

系列二 資料預處理

旨在對資料探勘有個系統的認識,這部分僅僅是對於資料預處理!對於常規的資料預處理主要分為以下4步驟 1 資料清洗 解決缺失值 異常值 離群點的問題 2 資料整合 解決樣本重複 指標構建 屬性高度相似的問題 2 資料規約 解決資料規模過大的問題 4 資料變換 將資料轉化為更方便分析的資料 1 填充缺失值...

資料預處理第5講 特徵縮放

特徵縮放 feature scaling 通常指特徵的標準化,或者叫z score標準化,對於很多機器學習演算法來說是乙個非常重要的預處理過程。標準化後的特徵,具有標準正態分佈的屬性,即零均值 單位標準差。很多演算法,例如svm,k 近鄰 logistic回歸,要求特徵標準化。再如主成分分析,如果乙...