機器學習探索性資料分析的資料型別

2021-08-19 04:20:12 字數 2640 閱讀 1667

資料型別是統計學中的重要概念,我們需要對它有正確的理解方能利用正確的資料型別來獲得結論。

這篇文章將介紹幾種用於機器學習探索性資料分析的資料型別,以便正確的把握和利用資料。

對資料結構的良好理解對於機器學習中探索性分析十分重要,對於不同的資料型別我們需要不同的統計學度量手段來進行分析測試。同時也需要根據資料的型別選擇合適的視覺化方式來幫助我們更好的理解資料。最後資料型別也為變數的分類提供了乙個有效的途徑。

分類資料

分類資料代表著物件的屬性特點。

諸如人群的性別、語言、國籍大都屬於分類資料。分類資料通常也可以用數值表示(例如1表示女性而0表示男性),但需要注意的是這一數值並沒有數學上的意義僅僅是分類的標記而已。

定類資料

定類變數用於標記不同變數的特徵,而並不需要定量的數值,它們僅僅是標籤而已。需要注意定類資料是無序的,對於變數順序的更改不會改變資料的本質特徵。

上圖中表示的便是乙個樣本典型的分類資料,分別描述了個體的性別和語言屬性。特別的作圖中是乙個只有兩個屬性的二叉分枝。

定序資料

定序資料代表了離散但是有序的變數單位。它於定類資料十分型別但確實有序的資料組織。下面教育背景的資料很好地的描述了定序資料的特點。

上圖中的四個選項依次表示了不同的受教育程度,但卻無法量化初級教育與高中的差別和高中與大學差別間的不同。定序資料缺乏對於特徵間差別的量化使得它更多的只能用於評價利於情緒和使用者滿意度等一系列非數值特徵。

數值資料

離散資料

離散資料是指其取值是不連續的分離值,資料只能在一些特定點取值。這樣的資料不能定量測量但可以進行統計計量,並可將其蘊含的資訊通過分類的方式進行表示。擲硬幣便是最著名的例子,我們無法**出下一次硬幣的正反但是可以通過統計歷史資料來估測概率的分布。

當處理離散資料時我們需要對兩個問題進行深入思考:資料是否可以計數統計,是否可以分割成較小的部分。如果結論於此相關資料可以被測量而不能夠計數,那麼意味著我們需要處理的便是連續的資料型別。

連續資料

連續資料型別代表著物件可測量的連續取值,雖然不能夠計數但是可以用某種尺度進行連續的測量取值,例如人的身高和年齡便是連續的數值。通常情況下人們只用或者實數來進行表示。

定距資料

定距變數用於表示物件等差屬性的描述方法。當我們使用定距變數時我們可以明確的知道數值間的順序和差別,並計量這種差別。對於溫度的描述就是乙個定距資料典型的例子。

但定距變數存在的問題在於它沒有乙個絕對的基準零值,對於上圖中的溫度來說0度並不意味著沒有溫度。對於定距變數來說我們可以進行加減操作卻無法進行乘除或者比例計算操作。由於不存在絕對零值使得描述性和推理性的統計方法都無法在定距資料上應用。

定比資料

定比資料和定距資料一樣都是有序的資料排列,但定比資料存在乙個絕對的零值,所描述的都是具有零值基準的變數,包括重量、高度和長度等。

為何資料型別如此重要?

由於不同的統計方法適用於不同的資料型別,所以資料的型別對於統計和機器學習分析十分重要。試想如果利用連續資料的分析方法來研究分類資料,那麼十有**會得出錯誤的結論。對於資料型別的理解將會有助於我們選擇正確的方法和統計模型來探索和分析資料。那麼不同的資料型別我們該選擇何種統計模型來分析呢?

對於定類資料來說主要需要關注頻率、比例/百分比和視覺化方法三個要素。用頻率度量某一事物在一定時間或者是在資料集中發生的次數。同時可以用頻率將其從資料中的佔比進行統計和分離。對於這列資料來說餅圖和柱狀圖是最好的呈現方式。

對於定序資料來說除了百分比和頻率等指標外,還可以利用百分位數、中位數等統計指標來描述資料。

對於連續資料來說可以利用更為豐富的的手段進行處理,除了常見統計手段的均值和方差外還有峰峰值、範圍等指標來進行表示。為了表示資料的誤差和離散程度,帶有誤差棒的箱式圖和直方圖不失為一種直觀的呈現方式。通過箱圖可以看到資料的集中程度和誤差程度,而直方圖則可以提供資料的整體形態、中值、分布以及趨勢。

在這篇文章中我們看到除了連續和離散的數值型別外,統計學中還包括了定序資料、定類資料、定距資料和定比資料等類別。

對於不同的資料型別有著不同的分析和視覺化方法,在著手處理資料時,理解資料是開始工作的首要條件,不僅有助於我們選擇正確的工具和方法,更有助於我們用正確的思維去探索和分析資料,更容易地得出正確有效的結論。

-the end-

編譯:t.r

EDA 探索性資料分析

引導資料科學從業者進行資料處理以及特徵工程的步驟,使資料集的結構和特徵集讓接下來的 問題更加可靠。值得注意的是,eda過程中是對原始資料的特徵 統計特徵 分布特徵 相關性等 進行挖掘,但是沒有刪除或構造任何特徵 花式查詢,不包括增 刪 改 1 載入各種資料科學以及視覺化庫 資料科學庫 pandas ...

EDA(探索性資料分析)

1 什麼是eda分析?exploratory data analysis 在特徵 資料處理的過程中,對資料進行探索,找到他們之間的更多潛在關係。2 怎麼去做eda分析?主要是通過資料視覺化來顯示資料之間的關聯,從而對資料進行處理。首先,我們應該思考的是是否會出現下列問題 1 資料是否缺失,有沒有離群...

01 探索性資料分析

資料競賽基本流程 美國國家標準與技術研究院 national institute of standards and technology,nist 提出探索性資料分析 eda 主要有如下功能 載入各種資料科學以及視覺化庫 載入資料 資料預覽 判斷資料缺失和異常 缺失值檢測 nan視覺化 missin...