統計分析學習之數值分析方法

2021-08-15 18:43:07 字數 1434 閱讀 4415

統計分析學習之數值分析方法

最近補了一些統計學的知識,大多都在這些年的學習中接觸過,這裡做個總結,以便回頭方便看。

從以下幾個方面對數值進行分析:

數值的位置

平均數與中位數

這個最常見的就是平均值和中位數了,平均值指的是資料在數值上的中心位置,是所有數和的平均,而中位數是乙個樣本序列在數值上的中間,序列長度為奇數是,中位數就是最中間的那個。我們可以吧平均數理解為樣本序列在數學上的中間位置,把中位數理解為樣本序列在物理上的中間位置。

加權平均數

權值對於學過演算法或者圖論的小夥伴都不陌生,權值不同則認為每個資料的權值(可以簡單理解為重要性)不同,在上邊提到的平均數中是認為每個數的權值相同。那加權平均數就是求平均時對每個數值乘上了他的權值。

ps,加權的樣本序列就比普通的樣本序列多了一維的資訊量。

幾何平均數

這是個很有意思的平均數,在之前並沒有接觸過,它是n個數值乘積的n次方根,既然是幾何平均數,那小夥伴們可以把它放在歐幾里得空間來理解它的意義。

眾數四分位數

四分位數是百分位數的一種特殊情況,但是這個數值的位置具有比較高的工程使用價值,在統計分析中出現頻率很高,比如後邊用到的箱形分析法等跟此關係很大。

數值的離散程度

資料的離散程度也可以成為資料的變異程度,學過聚類演算法的小夥伴說離散程度應該比變異程度更容易理解一些。有極差、四分位數間距、方差、標準差等指標(mae、mse等指針對機器學習的小夥伴應該都不陌生)。這個變異程度可以放在歐幾里得幾何空間來理解,都是描述數值之間分散的程度。

注意:1.極值是最容易計算的,但是它比較容易受到異常值影響,單獨計算時的工程意義並不大。

2.四分位數間距能很好的避免異常值影響,甚至能進一步的檢測異常值。(箱形法)

3.樣本方差是總體方差的無偏估計,標準差是方差的正平方根。

分布形態和相對位置

偏度偏度是分布形態的最常用度量。偏度的計算公式這裡就不貼出來了,也可以通過平均數和中位數的關係來判斷偏度。其關係如下所示:

偏度為正值 = 資料右偏 = (平均數》中位數)

偏度為0 = 資料對稱 = (平均數=中位數)

偏度為負值 = 資料左偏 = (平均數《中位數)

切比雪夫定理

學概率論的時候都接觸過這個,這裡就不做過多解釋。他能幫我們指出與平均數的距離在某個特定個數的標準差之內的資料值所佔的比例。(與平均數的距離在z個標準差之內的資料項所佔比例至少為(1-1/z^2),其中z是大於1的任何實數)。

異常點的檢測

異常點也成為離群點(outlier),對於機器學習的小夥伴也不陌生,在統計工程上常用的方法有簡單的統計量分析,比如最大值最小值是否超出合理的範圍,還有就是比較經典的箱形法。

以上方法是基於統計的方法,其在多維資料上表現的很無力。除此之外還有基於位置,基於偏差和基於密度的方法。還有一些比較新的**,是基於資訊熵(correntropy)和深度學習的異常點檢測演算法。有興趣的小夥伴可以下一些**看看。

統計分析學習之數值分析方法

最近補了一些統計學的知識,大多都在這些年的學習中接觸過,這裡做個總結,以便回頭方便看。從以下幾個方面對數值進行分析 這個最常見的就是平均值和中位數了,平均值指的是資料在數值上的中心位置,是所有數和的平均,而中位數是乙個樣本序列在數值上的中間,序列長度為奇數是,中位數就是最中間的那個。我們可以吧平均數...

資料統計分析方法

資料統計分析方法 描述統計 假設檢驗 相關分析 方差分析 回歸分析 聚類分析 主成分與因子分析 時間序列分析 決策樹。回歸分析 研究自變數與因變數之間的關係 可以用來 因變數的值 線性回歸使用最佳的擬合直線 也就是回歸線 在因變數 y 和乙個或多個自變數 x 之間建立一種關係。多元線性回歸可表示為y...

R之基本統計分析

此部落格主要評述用於生成基本的描述性統計量和推斷統計量的r函式。library hmisc vars c mpg hp wt describe mtcars vars a describe mtcars vars 通過a 來獲取結果 a counts 1 即為觀測數量的值pastecs包中有乙個名為...