資料科學家需要知道的5個基本統計學概念

2021-08-29 20:14:04 字數 2907 閱讀 3167

對於資料科學的藝術,統計學可以說是乙個強大的工具。從高層次的角度來看,統計是利用數學對資料進行技術分析。乙個基本的視覺化,如條形圖,可以給你提供一些高階的資訊,但是通過統計學,我們可以以一種更加以資訊驅動和更有針對性的方式來運算元據。所用到的數學方法能幫助我們對資料形成具體的結論,而不是去靠猜測。

通過使用統計學,我們可以更深入、更細緻地了解我們的資料到底是如何構造的,並基於這種結構,我們如何最佳地應用其他資料科學技術來獲取更多的資訊。現在,我們來看看資料科學家們需要知道的5個基本統計概念,以及如何才能最有效地應用它們!

統計特徵可能是資料科學中最常用的統計概念。這通常是你在研究資料集時應用的第一種統計技術,包括偏差、方差、平均值、中位數、百分位數等。這一切都相當容易理解並在**中實現!看看下面的圖表。

乙個簡單的箱型圖

中間的那條線是資料的中位數。由於中位數對離群值的魯棒性更強,因此中位數比平均值用得更多。第乙個四分位數本質上是第25百分位數,表示資料中25%的點低於這個值。第三個四分位數是第75百分位數,表示資料中75%的點都低於這個值。最小值和最大值表示資料範圍的上、下端。

乙個箱型圖完美地闡述了我們能用基本統計特徵做什麼:

所有這些資訊都來自一些簡單的統計特徵,並且很容易計算!當你需要對資料進行快速而有效的檢視時,請嘗試這些方法。

我們可以將概率定義為某個事件發生的概率百分比。在資料科學中,通常在0到1之間進行量化,0表示我們確信不會發生,1表示我們確信它會發生。概率分布是乙個函式,表示實驗中所有可能值的概率。請看下面的圖表。

雖然有很多的分布可以深入研究,但這3個已經給我們帶來了很多價值。我們可以用均勻分布快速地看到和解釋分類變數。如果我們看到乙個高斯分布便知道有很多演算法在預設情況下都能很好地處理高斯分布,所以我們應該這樣做。有了泊松分布,我們會發現必須特別小心選擇一種對空間發散的變化具有魯棒性的演算法。

降維這個術語很容易理解。我們有乙個資料集,希望減少它的維數。在資料科學中,它是特徵變數的數量。請看下面的圖表。

降維立方體代表我們的資料集,它有三個維度,總共有1000個點。雖然1000個點的計算在今天很容易處理,但是對於更大的範圍我們仍然會遇到問題。然而,僅僅從二維的角度來看我們的資料,例如從立方體的一邊,我們可以看到,從這個角度劃分所有的顏色是很容易的。通過降維,我們可以將三維資料投射到二維平面上。這有效地將我們需要計算的點數減少了100,大大節省了計算量!

另一種降維方法是特徵剪枝。有了特徵剪枝,我們可以刪除對分析不重要的任何特徵。例如,在研究資料集之後,我們可能會發現,在10個特性中,有7個特性與輸出的相關性很高,而其他3個特性的相關性很低。那麼,這3個低相關特性可能不值得計算,不過我們只能根據分析在不影響輸出的情況下將它們刪除。

當前用於降維的最常見的技術是pca,它本質上是建立了特徵的向量表示,顯示它們對輸出有多重要,比如他們的相關性。pca可以用於上面討論的兩種降維方式。在此教程中可以了解到更多資訊。

過取樣和欠取樣是用於分類問題的技術。有時,我們的分類資料集可能會嚴重傾斜到一邊。例如,類1有2000個樣本,但類2只有200個。這將對很多我們常用於建模並**的機器學習技術帶來影響!但過取樣和欠取樣可以與之對抗。請看下面的圖表。

欠取樣與過取樣

在上圖的左邊和右邊,我們的藍色模擬橙色類擁有更多的樣本。在這種情況下,有兩個預處理選項可以幫助我們的機器學習模型的訓練。

欠取樣意味著我們將只從多數類中選擇一部分資料,只使用與少數類樣本數相同的數量。這個方案應當保證取樣後類別的概率分布與之前相同。操作很容易,我們只是通過取更少的樣本來平衡資料集!

過取樣意味著我們將建立少數類的副本,以便擁有與多數類相同的樣本。建立副本時應當保證少數類的分布不變。這個方案中,我們只是把我們的資料集變得更均衡,並沒有得到更多的資料!

為了充分理解為什麼我們要使用貝葉斯統計,需要首先了解頻率統計不足的地方。頻率統計是大多數人聽到「概率」這個詞時會想到的統計方法。它應用數學來分析某些事件發生的概率,具體來說,我們使用的資料都是先驗的。

我們看乙個例子。假設給你乙個骰子然後問你擲出6的概率是多少,大多數人會說1 / 6。確實,如果我們做頻率分析,會通過一些資料比如某人擲骰子10000次,然後計算每個數字出現的頻率;大概是1 / 6!

但如果有人告訴你,給你的那個骰子是被改造過的並且落地後總會是6的那面朝上呢?頻率分析只考慮了先驗的資料,並沒有考慮骰子被改造過這個因素。

貝葉斯統計確實考慮到了這個問題,可以用貝葉定理來說明這一點:

貝葉斯定律

方程中的概率p(h)基本上就是頻率分析;表示根據之前的先驗資料,事件發生的概率是多少。方程中的p(e|h)被稱為似然,本質上是根據頻率分析得到的資訊的條件下,我們得到的結論是正確的概率。例如,滾動骰子10000次,而前1000次全部得到6,你會開始肯定,骰子是被改造過的!p(e)是實際結論成立的概率。如果我告訴你,骰子是改造過的,你能相信我並說它是真的嗎?

如果我們的頻率分析很好那麼就會有一定的權重說明:是的,我們對6的猜測是正確的。與此同時,我們考慮了改造骰子的事實,它是否為真,同時基於它自己的先驗和頻率分析。從方程的布局可以看出,貝葉斯統計考慮了所有的因素。當你覺得之前的資料不能很好地代表未來的資料和結果時,就使用它。

資料科學家需要知道的5種聚類演算法

編譯 bot 編者按 聚類是一種涉及資料點分組的機器學習技術。給定一組資料點,我們可以使用聚類演算法將每個資料點到分類到影象中的特定組中。理論上,同一組中的資料點應具有相似的屬性和特徵,而不同組中的資料點的屬性和特徵則應高度不同。聚類是無監督學習的一種方法,是用於多領域統計資料分析的常用技術。在資料...

資料科學家應知道的關於資料科學專案的四個關鍵方面

實用資料科學是乙個多維領域。機器學習演算法本質上是整個端對端資料科學驅動專案的一部分。我經常遇到一些年輕的資料科學愛好者,他們在剛開始的時候沒有乙個完整的計畫。在針對實際情況構建資料科學驅動產品的解決方案時,我們需要考慮多種實際情況,所以它不僅限於只考慮資料方面的事情 在資料科學驅動的專案中,一些更...

資料科學家需要了解的5大聚類演算法

聚類是一種涉及資料點分組的機器學習技術。給定乙個資料點集,則可利用聚類演算法將每個資料點分類到乙個特定的組中。理論上,同一組資料點具有相似的性質或 和 特徵,不同組資料點具有高度不同的性質或 和 特徵。聚類屬於無監督學習,也是在很多領域中使用的統計資料分析的一種常用技術。本文將介紹常見的5大聚類演算...