資料探勘學習之資料探索

2021-08-10 06:25:34 字數 1103 閱讀 5510

資料探索是資料探勘必不可少的一環,資料探索技術會對模型準確率的提高帶來驚喜的效果。

1、什麼是資料探索?

答:資料探索是通過繪圖、計算、等手段,分析資料集的資料質量、資料的結構、資料的趨勢和資料的關聯性,為資料探索之後的特徵工程階段打下堅實的基礎。

2、資料探索的內容

資料的質量分析和資料的特徵分析

2.1資料的質量分析是指檢查資料中是否存在髒資料,包括:缺失值、異常值、雜訊和不一致的值,重複資料和含有特殊符號的資料

2.1.1缺失值分析

(資料為何缺失)由於資料獲取的有難度、資訊被遺漏、資料採集的故障等(人為和非人為),造成了特徵的資料缺失

(為何要處理缺失的資料)缺失值會對資料探勘建模的準確度造成影響、同樣會使建模過程非常地困難。

(處理缺失值)見特徵工程

2.1.2異常值分析

異常值是指樣本中的個別值,也稱離群點

如何檢視異常值:描述性統計

正太分布下的2阿路發原則;

2.1.3一致性分析

資料整合造成的資料不一致

在資料的特徵分析中,主要用到python的pandas類庫,使用dataframe的info()和describe()方法則可以完成基本的資料質量分析

2.2資料的特徵分析

2.2.1分布分析

定量資料繪製各種圖表,比如莖葉圖、餅圖等,包括了極差、區間分布等,描述指標參照統計學

定性資料根據類別來進行分析

對比分析、週期性分析

3、python中用於資料探索的基本類庫和基本函式

matplotlib類庫繪製圖表

import matpotlib.pyplot as plt#匯入做相簿

%matplotlib inline #使得在jupyter notebook頁面顯示

plt.figure()#建立影象區域
d.plot()#畫圖
plt.show()#顯示

資料探勘之資料探索

本文探索 1.探索類別特徵,檢視每個類別特徵有多少種類 2.探索數值特徵,離散化方式 3.去除大多數是同一值的特徵 4.處理時間型特徵 所需python包 from pandas import series,dataframe import pandas as pd一 檢視每個類別特徵有多少種類 d...

資料探勘 資料探索

資料探索 根據觀測 調查收集到初步的樣本資料集後,接下來要考慮的問題是 樣本資料集的數量和質量是否滿足模型構建的要求?有沒有出現從未設想過的資料狀態?其中有沒有什麼明顯的規律和趨勢?各因素之間有什麼樣的關聯性?資料探索就是通過檢驗資料集的資料質量 繪製圖表 計算某些特徵量等手段,對樣本資料集的結構和...

資料探勘導論筆記之探索資料

鳶尾花 iris 資料集可以從加州大學歐文分校 uci 的機器學習庫中獲取,包含150種鳶尾花的資訊,每50種取自三個原味鳶尾花種之一 setosa versicolour和virgincia。每個花的特徵用下面5種屬性描述。匯 計是量化的,用單個數或數的小集合捕獲可能很大的值的各種特徵。匯 計的。...