統計學的基本概念

2021-10-10 19:53:41 字數 2763 閱讀 2028

從高的角度來看,統計學是一種利用數學理論來進行資料分析的技術。象柱狀圖這種基本的視覺化形式,會給你更加全面的資訊。但是,通過統計學我們可以以更富有資訊驅動力和針對性的方式對資料進行操作。所涉及的數學理論幫助我們形成資料的具體結論,而不僅僅是猜測。

利用統計學,我們可以更深入、更細緻地觀察資料是如何進行精確組織的,並且基於這種組織結構,如何能夠以最佳的形式來應用其它相關的技術以獲取更多的資訊。今天,我們來看看資料分析師需要掌握的5個基本的統計學概念,以及如何有效地進行應用。

特徵統計可能是資料科學中最常用的統計學概念。它是你在研究資料集時經常使用的統計技術,包括偏差、方差、平均值、中位數、百分數等等。理解特徵統計並且在**中實現都是非常容易的。請看下圖:

上圖中,中間的直線表示資料的中位數。中位數用在平均值上,因為它對異常值更具有魯棒性。第乙個四分位數本質上是第二十五百分位數,即資料中的25%要低於該值。第三個四分位數是第七十五百分位數,即資料中的75%要低於該值。而最大值和最小值表示該資料範圍的上下兩端。

箱形圖很好地說明了基本統計特徵的作用:

我們可以將概率定義為一些事件將要發生的可能性大小,以百分數來表示。在資料科學領域中,這通常被量化到0到1的區間範圍內,其中0表示事件確定不會發生,而1表示事件確定會發生。那麼,概率分布就是表示所有可能值出現的機率的函式。請看下圖:

常見的概率分布,均勻分布(上)、正態分佈(中間)、泊松分布(下):

如果遇到乙個高斯分布,那麼我們知道有很多演算法,在預設情況下高斯分布將會被執行地很好,因此首先應該找到那些演算法。如果是泊松分布,我們必須要特別謹慎,選擇乙個在空間擴充套件上對變化要有很好魯棒性的演算法。

降維這個術語可以很直觀的理解,意思是降低乙個資料集的維數。在資料科學中,這是特徵變數的數量。請看下圖:

在這裡插入描述

上圖中的立方體表示我們的資料集,它有3個維度,總共1000個點。以現在的計算能力,計算1000個點很容易,但如果更大的規模,就會遇到麻煩了。然而,僅僅從二維的角度來看我們的資料,比如從立方體一側的角度,可以看到劃分所有的顏色是很容易的。通過降維,我們將3d資料展現到2d平面上,這有效地把我們需要計算的點的數量減少到100個,大大節省了計算量。

另一種方式是我們可以通過特徵剪枝來減少維數。利用這種方法,我們刪除任何所看到的特徵對分析都不重要。例如,在研究資料集之後,我們可能會發現,在10個特徵中,有7個特徵與輸出具有很高的相關性,而其它3個則具有非常低的相關性。那麼,這3個低相關性的特徵可能不值得計算,我們可能只是能在不影響輸出的情況下將它們從分析中去掉。

用於降維的最常見的統計技術是pca,它本質上建立了特徵的向量表示,表明了它們對輸出的重要性,即相關性。pca可以用來進行上述兩種降維方式的操作。

過取樣和欠取樣是用於分類問題的技術。例如,我們有1種分類的2000個樣本,但第2種分類只有200個樣本。這將拋開我們嘗試和使用的許多機器學習技術來給資料建模並進行**。那麼,過取樣和欠取樣可以應對這種情況。請看下圖:

在上面圖中的左右兩側,藍色分模擬橙色分類有更多的樣本。在這種情況下,我們有2個預處理選擇,可以幫助機器學習模型進行訓練。

欠取樣意味著我們將只從樣本多的分類中選擇一些資料,而盡量多的使用樣本少的分類樣本。這種選擇應該是為了保持分類的概率分布。我們只是通過更少的抽樣來讓資料集更均衡。

過取樣意味著我們將要建立少數分類的副本,以便具有與多數分類相同的樣本數量。副本將被製作成保持少數分類的分布。我們只是在沒有獲得更多資料的情況下讓資料集更加均衡。

完全理解為什麼在我們使用貝葉斯統計的時候,要求首先理解頻率統計失敗的地方。大多數人在聽到「概率」這個詞的時候,頻率統計是首先想到的統計型別。它涉及應用一些數學理論來分析事件發生的概率,明確地說,我們唯一計算的資料是先驗資料(prior data)。

假設我給了你乙個骰子,問你擲出6點的機率是多少,大多數人都會說是六分之一

但是,如果有人給你個特定的骰子總能擲出6點呢?因為頻率分析僅僅考慮之前的資料,而給你作弊的骰子的因素並沒有被考慮進去。

貝葉斯統計確實考慮了這一點,我們可以通過貝葉斯法則來進行說明:

在方程中的概率p(h)基本上是我們的頻率分析,給定之前的關於事件發生概率的資料。方程中的p(e|h)稱為可能性,根據頻率分析得到的資訊,實質上是現象正確的概率。例如,如果你要擲骰子10000次,並且前1000次全部擲出了6個點,那麼你會非常自信地認為是骰子作弊了

如果頻率分析做的非常好的話,那麼我們會非常自信地確定,猜測6個點是正確的。同時,如果骰子作弊是真的,或者不是基於其自身的先驗概率和頻率分析的,我們也會考慮作弊的因素。正如你從方程式中看到的,貝葉斯統計把一切因素都考慮在內了。當你覺得之前的資料不能很好地代表未來的資料和結果的時候,就應該使用貝葉斯統計方法。

在統計學中 統計學中的基本概念

統計學的幾個基本概念 總體和總體單位 1.總體 總體的概念 總體是指客觀存在的 具有某種共同性質的 許多個別事物組成的整體 在統計研究過程當中,統計研究的目的和任務居於支配和主導的 地位,有什麼樣的研究目的就應該有什麼樣的統計總體與之相適應。例如 要研究我們學院教師的工資情況,那麼全體教師就是研究的...

學習統計學(一) 基本概念

首先我們需要了解的概念是均值 中位數和眾數。這三者都屬於表示頻數分配位置的量值。所謂頻數分配位置是指兩個或者兩個以上頻數分配各變數集中的中心點的不同。1 平均數 mean 計算平均數的方式有很多種,在這裡我們所指的是算數平均數。它的計算方法是計算一組資料的和sum,然後用sum除以這組資料的數量,得...

數理統計學基本概念

統計量 x 1 n ni 1xi 1n x1 x 2 xn 稱為樣本均值。定理 設總體 x 的均值 即數學期望 e x 和方差 d x 2 存在 則 統計量 s2 1n 1 ni 1 x i x 2 稱為樣本方差。容易驗證 n i 1 xi x 2 n i 1x 2i n x2 因此,樣本方差通常採...