資料探勘 資料預處理之資料整合與變換

2022-08-15 09:24:11 字數 817 閱讀 8127

在資料預處理的過程當中往往需要將多個資料集合中的資料整合到乙個資料倉儲中,即:需要對資料庫進行整合。與此同時,為了更好地對資料倉儲中的資料進行挖掘,對資料倉儲中的資料進行變換也在所難免。本文主要針對資料整合以及資料變化兩個問題展開論述。

資料整合在將多個資料庫集成為乙個資料庫過程中存在需要著重解決三個問題:模式匹配、資料冗餘以及資料值衝突。來自多個資料集合的資料由於在命名上存在差異導致等價的實體具有不同的名稱,這給資料整合帶來了挑戰。怎樣才能更好地對**不同的多個實體進行匹配是擺在資料整合面前的第乙個問題,涉及到實體識別問題,主要利用元資料來進行區分。

資料冗餘可能**於資料屬性命名的不一致,在解決資料冗餘的過程中對於數值屬性可以利用皮爾遜積矩ra,b來衡量,它是乙個位於[-1,1]之間的數值,大於零那麼屬性之間呈現正相關,否則為反相關。絕對值越大表明兩者之間相關性越強。對於離散資料可以利用卡方檢驗來檢測兩個屬性之間的關聯。

在資料整合中最後乙個重要問題便是資料值衝突問題,主要表現為**不同的統一實體具有不同的資料值。

資料變換將資料轉換或者統一為適合進行資料探勘的形式,主要涉及一下幾點:

1.光滑:去掉資料中的雜訊,主要有分箱、回歸和聚類等方法;

2.聚集:通過對資料倉儲中的資料進行簡單的彙總和聚集來獲得統計資訊,以便對資料進行更高層次的分析;

3.資料泛化:使用概念分層的方式,利用高層的概念來替換低層或原始資料;

4.規範化:對屬性資料進行縮放,使之可以落入到乙個特定區域之間,主要有最小-最大規範化、z-score規範化(利用均值和標準差)以及小數定標(除以10的n次方,使之落到[-1,1])規範化等方法;

5.屬性構造:構造新的屬性並新增到屬性集合中以便幫助挖掘。

資料探勘之資料預處理

現實情況中,你的資料可能是不完整的 缺少屬性值或某些感興趣的屬性或僅包含聚類資料 含雜訊的 包含錯誤或存在偏離期望的離群值 並且是不一致的。資料清理 填寫缺失的值 光滑雜訊資料 識別或刪除離群點並解決不一致性 資料整合 當資料來自多個資料來源時,而同乙個屬性在不同資料來源不同,合成時存在冗餘 資料規...

資料探勘 資料預處理之資料清洗

資料清洗 資料清洗作為資料預處理中的乙個步驟,主要用於處理由於資料倉儲中資料不完整 資料雜訊以及資料不一致導致的問題。有人可能質疑,為什麼要對資料進行清洗?忽略那些出問題的資料不行嗎?當然,視而不見確是一種應對策略,但作為資料探勘中的一環,沒有高質量的資料又談何挖掘的可信性。為此,對於資料資料探勘來...

資料探勘之漫談資料預處理

接觸資料探勘以及相關的演算法也有快兩年的時間了。整理下自己使用過的預處理方法,以及一些必備知識。總體來說,預處理包括大概四個部分 清理,整合,歸約和變形。預處理中使用的技術不如 演算法 那麼 高階 但是元資料本身質量的好壞直接決定著模型的上界。資料編碼格式 unicode utf 8 gbk是我常遇...