基於python資料分析

資料質量分析是資料探勘中資料準備過程的重要–環，是資料預處理的前提，也是資料探勘分析結論有效性和準確性的基礎，沒有可信的資料，資料探勘構建的模型將是空中樓閣。

資料質量分析的主要任務是檢查原始資料中是否存在髒資料，髒資料一般是指不符合要求，以及不能直接進行相應分析的資料。在常見的資料探勘工作中,髒資料報括如下內容。

口、缺失值。

異常值。

不一致的值。

重複資料及含有特殊符號(如#、￥、*)的資料。

資料的缺失主要包括記錄的缺失和記錄中某個字段資訊的缺失，兩者都會造成分析結果的不準確，以下從缺失值產生的原因及影響等方面展開分析。

(1)缺失值產生的原因

1)有些資訊暫時無法獲取，或者獲取資訊的代價太大。

2)有些資訊是被遺漏的。可能是因為輸人時認為不重要、忘記填寫或對資料理解錯誤等一些人為因素而遺漏，也可能是由於資料採集裝置的故障、儲存介質的故障、傳輸**的故障等非人為原因而丟失。

3)屬性值不存在。在某些情況下，缺失值並不意味著資料有錯誤。對一-些物件來說某些屬性值是不存在的，如乙個未婚者的配偶姓名、乙個兒童的固定收入等。

(2)缺失值的影響

1 )資料探勘建模將丟失大量的有用資訊。

2)資料探勘模型所表現出的不確定性更加顯著，模型中蘊涵的規律更難把握。

3)包含空值的資料會使建模過程陷人混亂，導致不可靠的輸出。

(3)缺失值的分析

使用簡單的統計分析，可以得到含有缺失值的屬性的個數，以及每個屬性的未缺失數、缺失數與缺失率等。

從總體上來說，缺失值的處理分為刪除存在缺失值的記錄、對可能值進行插補和不處理3種情況。

異常值分析是檢驗資料是否有錄人錯誤以及含有不合常理的資料。忽視異常值的存在是十分危險的，不加剔除地把異常值包括進資料的計算分析過程中，對結果會產生不良影響;重視異常值的出現，分析其產生的原因，常常成為發現問題進而改進決策的契機。

異常值是指樣本中的個別值，其數值明顯偏離其餘的觀測值。異常值也稱為離群點，異常值的分析也稱為離群點分析。

(1)簡單統計量分析

可以先對變數做乙個描述性統計，進而檢視哪些資料是不合理的。最常用的統計量是最大值和最小值，用來判斷這個變數的取值是否超出了合理的範圍。如客戶年齡的最大值為199歲，則該變數的取值存在異常。

(2) 3σ原則

如果資料服從正態分佈，在3σ原則下，異常值被定義為一組測定值中與平均值的偏差超過3倍標準差的值。在正態分佈的假設下，距離平均值3σ之外的值出現的概率為p(x-u1>3σ)≤0.003，屬於極個別的小概率事件。