資料探勘總結 探索性分析總結

2021-10-19 22:12:31 字數 573 閱讀 7748

核心:

1、質量分析

2、特徵分析(分布、對比、週期性、相關性、常見統計量)

資料清洗:

1、缺失值處理(通過describe與len直接發現,通過0資料發現)

2、異常值處理(通過散點圖發現)

一般遇到缺失值,處理方式為(刪除、插補、不處理)

插補的主要方式有:均值插補、中位數、眾數、固定值、最近資料、回歸插補、拉格朗日插補、牛頓插補、分段插補等

異常值一般視為缺失值、刪除、修補、不處理等

資料整合:

把不同**的資料放在一起,但是一定要做好實體識別與冗餘屬性識別,避免資料整合錯誤及資料重複

技巧:1、觀察資料,發現其中關係,詳細檢視是否有同名不同意,同意不同名的情況

2、進行資料讀取與整合

3、去除重複資料

資料變換:

簡單變換

目的是將資料轉換為更方便分析的資料

簡單變換通常使用函式變換的方式進行,常見的函式包括:開方、平方、對數等

資料規範化

離差標準化(最小-最大標準化) 消除量綱(單位)影響以及變異大小因素的影響 x1=(x-min)/(ma

資料的探索性分析

1.簡單統計量分析 極差,最大值,最小值 2.3 原則 如果資料服從正態分佈,在3 原則下,異常值被定義為一組測定值中與平均值的偏差超過3倍標準差的值。如果資料不服從正態分佈,也可以用標準差作為 來進行倍數描述 3.箱型圖分析 在箱型圖中,異常值被定義為小於ql 1.5iqr或大於qu 1.5iqr...

資料探勘 探索性資料分析 EDA (補充)

去敏資料已經在之前有過介紹了,指為了保護資料,消除特徵的意義。而對這類資料就無法根據業務知識,進行特徵的建立。另外,我們得到的資料一般是原始資料通過變換得到的,變換的方式有很多種。本文主要針對通過乘除對資料進行縮放,然後通過加減對資料進行平移的這種資料還原。以下是從網上找到的乙個案例 首先介紹下,這...

EDA 探索性資料分析

引導資料科學從業者進行資料處理以及特徵工程的步驟,使資料集的結構和特徵集讓接下來的 問題更加可靠。值得注意的是,eda過程中是對原始資料的特徵 統計特徵 分布特徵 相關性等 進行挖掘,但是沒有刪除或構造任何特徵 花式查詢,不包括增 刪 改 1 載入各種資料科學以及視覺化庫 資料科學庫 pandas ...