資料的探索性分析

2021-10-10 04:06:20 字數 1337 閱讀 6025

1. 簡單統計量分析:極差,最大值,最小值

2. 3σ原則

如果資料服從正態分佈,在3σ原則下,異常值被定義為一組測定值中與平均值的偏差超過3倍標準差的值。

如果資料不服從正態分佈,也可以用標準差作為σ來進行倍數描述

3. 箱型圖分析

在箱型圖中,異常值被定義為小於ql-1.5iqr或大於qu+1.5iqr的值

ql:下四分位數,全部觀察值中有四分之一的資料取值比它小

qu:上四分位數,全部觀察值中有四分之一的資料取值比它大

iqr:是上四分位數和下四分位數之差,其間包含了全部觀察值的一半

理解:資料的矛盾性、不相容性

不一致書產生的原因:主要發生在資料整合過程,包括不同資料來源整合、資料存放未及時更新

1. 分布分析

定量資料分析:頻率分布表、頻率分布直方圖、莖葉圖

定性資料分析:根據變數分類型別來分組,包括餅狀圖、條形圖

2. 對比分析

(1)絕對數比較:利用絕對數進行對比,尋找差異

(2)相對數分析:利用兩個有聯絡的指標對比計算,反映客觀現象之間數量聯絡程度的綜合指標

結構相對數:總體內部分數值/總體全部數值,eg.產品合格率

比例相對數:總體內不同部分的數值進行對比,eg.性別比例,投資消費比例

比較相對數:同一時期兩個性質相同的指標進行對比,eg.不同行業某項指標對比

強度相對數:性質不同但有一定聯絡的總量指標進行對比,eg.元/人

計畫完成程度相對數:某一時期實際完成數/計畫數

動態相對數:同一現象在不同時期的指標數值進行對比,eg.發展速度,增長速度

3. 統計量分析

集中趨勢度量:均值、中位數、眾數

離中趨勢度量:極差、標準差、變異係數、四分位數間距

4. 週期性分析

是探索某個變數是否隨著時間的變化呈現出某種週期性變化趨勢

包括:月度週期、季度週期、周度週期、天週期、小時週期

5. 貢獻度分析

又稱帕累託分析,又稱「八二法則」

帕累託圖

6. 相關性分析

使用工具:散點圖、散點圖矩陣

相關性係數:

pearson相關係數(連續變數)

spearman相關係數(服從正態分佈)

spearman秩相關係數(不服從正太分布)

判定係數:相關係數的平方,用來衡量回歸方程對y的解釋程度

EDA 探索性資料分析

引導資料科學從業者進行資料處理以及特徵工程的步驟,使資料集的結構和特徵集讓接下來的 問題更加可靠。值得注意的是,eda過程中是對原始資料的特徵 統計特徵 分布特徵 相關性等 進行挖掘,但是沒有刪除或構造任何特徵 花式查詢,不包括增 刪 改 1 載入各種資料科學以及視覺化庫 資料科學庫 pandas ...

EDA(探索性資料分析)

1 什麼是eda分析?exploratory data analysis 在特徵 資料處理的過程中,對資料進行探索,找到他們之間的更多潛在關係。2 怎麼去做eda分析?主要是通過資料視覺化來顯示資料之間的關聯,從而對資料進行處理。首先,我們應該思考的是是否會出現下列問題 1 資料是否缺失,有沒有離群...

01 探索性資料分析

資料競賽基本流程 美國國家標準與技術研究院 national institute of standards and technology,nist 提出探索性資料分析 eda 主要有如下功能 載入各種資料科學以及視覺化庫 載入資料 資料預覽 判斷資料缺失和異常 缺失值檢測 nan視覺化 missin...