資料探勘 資料探索

2021-07-11 11:47:15 字數 2057 閱讀 2991

資料探索

根據觀測、調查收集到初步的樣本資料集後,接下來要考慮的問題是:樣本資料集的數量和質量是否滿足模型構建的要求?有沒有出現從未設想過的資料狀態?其中有沒有什麼明顯的規律和趨勢?各因素之間有什麼樣的關聯性?

資料探索就是通過檢驗資料集的資料質量、繪製圖表、計算某些特徵量等手段,對樣本資料集的結構和規律進行分析的過程。

資料探索可以從資料質量分析和資料特徵分析等兩個角度進行展開。

一.資料質量分析

資料質量分析是資料探勘中資料準備過程中的重要一環,是資料預處理的前提,也是資料探勘分析結論有效性和準確性的基礎。資料質量分析的主要任務是檢查原始資料中是否存在髒資料,髒資料一般是指不符合要求,以及不能直接進行相應分析的資料。在資料探勘中,髒資料報括:

缺失值異常值

不一致的值

重複資料及含有特殊符號的資料

1.1   缺失值分析

資料的缺失主要包括記錄的缺失和記錄中某個字段資訊的缺失,兩者都會造成分析結果的不準確。通過使用簡單的統計分析,可以得到含有缺失值的屬性的個數,以及每個屬性的未缺失數、缺失數與缺失率等。

缺失值產生的原因

1)有些資訊是被遺漏的。可能是因為輸入時認為不重要、忘記填寫或對資料理解錯誤等一些人為因素而遺漏的

2)屬性值不存在。

3)有些資訊暫時無法獲取,或者獲取的代價比較大。

缺失值的影響

1)資料探勘建模將丟失大量的有用資訊

2)資料探勘模型所表現出的不確定性更加顯著,模型中蘊含的規律更難把握

3)包含空值的資料會使建模過程陷入混亂,導致不可靠的輸出

1.2   異常值分析

異常值分析是檢驗資料是否有錄入錯誤以及含有不合常理的資料。忽視異常值的存在是十分危險的,不加剔除地把異常值包括進資料的計算分析過程中,會給結果帶來不良影響。

異常值是指樣本中的個別值,其資料明顯偏離其餘的觀測值。異常值也稱為離群點,異常值的分析也稱為離群點分析。異常值分析可以通過以下3種方法來探索。

1)簡單統計量分析

可以先對變數做乙個描述性統計,進而檢視哪些資料是不合理的。最常用的統計量是最大值和最小值。

2)3原則

如果資料服從於正態分佈,在3原則下,異常值被定義為一組測定值與平均值的偏差值超過3倍標準差的值,即|x-u| >3。如果資料不服從正態分佈,也可以用遠離平均值的多少倍標準差來描述。

3)箱型圖分析

箱型圖提供了識別異常值的乙個標準:異常值通常被定義為小於ql -1.5iqr或大於qu +1.5iqr的值。

1.3   一致性分析

資料不一致性是指資料的矛盾性、不相容性。直接對不一致性的資料進行挖掘,可能會產生與實際相違背的挖掘結果。

在資料探勘過程中,不一致資料的產生主要發生在資料整合的過程中,可能是由於被挖掘資料來自於不同的資料來源、對於重複存放的資料未能進行一致性更新造成的。

二.資料特徵分析

對資料進行質量分析以後,可以通過繪製圖表、計算某些特徵量等手段進行資料的特徵分析。主要通過分布分析、對比分析、統計量分析、週期性分析、貢獻度分析、相關性分析等角度進行展開。

2.1 分布分析

分布分析能揭示資料的分布特徵和分布型別。對於定性資料,可用餅形圖和條形圖直觀的現實分布情況。

2.2 對比分析

對比分析是指把兩個相互聯絡的指標進行比較,從資料量上展開和說明研究物件規模的大小,水平的高低,速度的快慢。在對比分析中,選擇合適的對比標準是十分關鍵的步驟。

2.3  統計量分析

用統計指針對定量資料進行統計描述,常從集中趨勢和離中趨勢兩個方面進行分析。

2.4 週期性分析

週期性分析是探索某個變數是否隨著時間變化而呈現出某種週期變化趨勢。時間尺度相對較長的週期性趨勢有年度週期性趨勢、季節性週期性趨勢,相對較短的有月度週期性趨勢、周度週期性趨勢,甚至更短的天、小時週期性趨勢。

2.5 貢獻度分析

貢獻度分析又稱帕累託分析,它的原理是帕累託法則又稱2/8定律。

2.6 相關性分析

分析連續變數之間線性相關程度的強弱,並用適當的統計指標表示出來的過程稱為相關分析。

資料探勘之資料探索

本文探索 1.探索類別特徵,檢視每個類別特徵有多少種類 2.探索數值特徵,離散化方式 3.去除大多數是同一值的特徵 4.處理時間型特徵 所需python包 from pandas import series,dataframe import pandas as pd一 檢視每個類別特徵有多少種類 d...

資料探勘學習之資料探索

資料探索是資料探勘必不可少的一環,資料探索技術會對模型準確率的提高帶來驚喜的效果。1 什麼是資料探索?答 資料探索是通過繪圖 計算 等手段,分析資料集的資料質量 資料的結構 資料的趨勢和資料的關聯性,為資料探索之後的特徵工程階段打下堅實的基礎。2 資料探索的內容 資料的質量分析和資料的特徵分析 2....

資料探勘導論筆記之探索資料

鳶尾花 iris 資料集可以從加州大學歐文分校 uci 的機器學習庫中獲取,包含150種鳶尾花的資訊,每50種取自三個原味鳶尾花種之一 setosa versicolour和virgincia。每個花的特徵用下面5種屬性描述。匯 計是量化的,用單個數或數的小集合捕獲可能很大的值的各種特徵。匯 計的。...