在多元變數分析中,我們考慮所有的 \(d\) 個數值型屬性 \(x_1, \cdots, x_d\)。整個資料集是乙個 \(n \times d\) 的矩陣,即(資料矩陣):
\[d =
\left[
\begin
& x_1 & x_2 & \cdots & x_d \\
\hline
x_1^t & x_ & x_ & \cdots & x_ \\
x_2^t & x_ & x_ & \cdots & x_ \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
x_n^t & x_ & x_ & \cdots & x_ \\
\end
\right]
\]以上資料:
從概率的角度,\(d\) 個屬性可以建模為乙個向量隨機變數 \(x = (x_1, x_2, \cdots, x_d)^t\),而點 \(x_i\) 可以看成從 \(x\) 中得到的隨機樣本,它們和 \(x\) 是獨立同分布的。
\[\begin
\mu = e[x] = \left[
\begin
e[x_1] \\ e[x_2] \\ \vdots \\ e[x_d]
\end
\right] = \left[
\begin
\mu_1 \\ \mu_2 \\ \vdots \\ \mu_d
\end
\right] \tag \\
\hat = \frac \sum_^x_i \tag
\end
\]\[\sigma = e[(x - \mu)(x - \mu)^t]
\]\[z = d - 1 \cdot \hat^t
\]\[\hat = e[(x - \hat)(x - \hat)^t] = \frac\; (z^tz)
\]\[var(d) = tr(\sigma)
\]極差:\(\hat = \max\ - \min\\)
\(x_i^ = \frac}}\)
\[\hat = \frac}}
\]\[erf(x) = \frac}\;\int_0^xe^t
\]隨機變數 \(x\) 服從正態分佈,均值為 \(\mu\),方差為 \(\sigma^2\),其概率密度函式可以描述為:
\[f(x\,|\,\mu, \sigma^2) = \frac} \exp\left\\right\}
\]給定區間 \([a, b]\),在該區間上的正態分佈的概率質量為:
\[p(a \leq x \leq b) = \int_a^b f(x\,|\,\mu, \sigma^2) x
\]\[p(\mu - k \sigma \leq x \leq \mu + k \sigma) = \int_^ f(x\,|\,\mu, \sigma^2) x
\]我們令 \(z = \frac\),則上式可以化為:
\[\begin
p(- k \leq z \leq k) &= \frac} \int_^ e^ } z \\
&= \frac} \int_^ e^ } z \\
&= \frac} \int_^}} e^ t \\
&= erf(\frac})
\end
\]若 \(x = (x_1, x_2, \cdots, x_d)\) 服從多元正態分佈,均值為 \(\bf \mu\),協方差矩陣為 \(\bf \sigma\),則其聯合多元概率密度函式為:
\[f(x\,|\,\mu, \sigma) = \frac^d |}}} \exp\left\^(x - \mu)} \right\}
\]\[(x - \mu)^t^(x - \mu)
\]
在統計學中 統計學中的基本概念
統計學的幾個基本概念 總體和總體單位 1.總體 總體的概念 總體是指客觀存在的 具有某種共同性質的 許多個別事物組成的整體 在統計研究過程當中,統計研究的目的和任務居於支配和主導的 地位,有什麼樣的研究目的就應該有什麼樣的統計總體與之相適應。例如 要研究我們學院教師的工資情況,那麼全體教師就是研究的...
統計學 統計學基礎
五種抽樣方法 1 簡單隨機 選取熱量相同且每個樣本有同等概率被選擇的樣本 2 系統 簡單的系統抽取樣本 3 任意 使用乙個碰巧很容易被選擇的樣本 4 整群 先將總體分為不同組群,從中隨機挑選幾個組群作為樣本 5 分層 定義層級,在每個層級隨機抽取樣本。抽樣方法的選擇一定要符合 1 只有樣本對總體具有...
統計學的基本概念
從高的角度來看,統計學是一種利用數學理論來進行資料分析的技術。象柱狀圖這種基本的視覺化形式,會給你更加全面的資訊。但是,通過統計學我們可以以更富有資訊驅動力和針對性的方式對資料進行操作。所涉及的數學理論幫助我們形成資料的具體結論,而不僅僅是猜測。利用統計學,我們可以更深入 更細緻地觀察資料是如何進行...