大型資料庫分析技巧 統計學基礎2

2021-07-06 07:29:31 字數 3770 閱讀 3440

三元式:(ω

,f,p

) ω:

結果集合(ergebnismenge)//指可能出現的結果如擲骰子可能出現的結果是1到6

f⊆2

ω:事件域(raum der ereignisse)//表示感興趣的事件的集合比如擲骰子得出結果為基數

p(wahrscheinlichkeitsmass):每個事件的概率

其中f還具有以下屬性:

1.f可以包括空事件,全事件//triviale ereignis

2.f對vereinigung和komplement閉合//vereinigung指聯合komplement指互補,在這裡指什麼還木弄清楚??待查明

另外p滿足下列屬性:

1.非負(nichtnegativitaet):

2.全事件概率為一:p(

ω)=1

3.符合加法屬性(additivitaet):對於所有的事件a,b∈f

且a∩b

=∅:p

(a∪b

)=p(

a)+p

(b)

隨機變數(zufallsvariable)://不解釋了吧

多變數分布(multivariate verteilungen):多維隨機變數的概率分布

邊緣分布(randverteilungen):

p(x,y)是乙個多變數分布

邊緣分布p(x)=∑b

∈val

(y)p

(x,y

=b)

即當乙個變數已知的條件下,另乙個變數的概率分布

公式: p(

x=a|

y=b)

=p(x

=a,y

=b)p

(y=b

) 不相關性(unabhängigkeit):當乙個變數的概率已知時並不會影響另乙個變數的概率分布,他符合下面的公式: p(

x)=p

(x|y

) p(

x,y)

=p(x

)∗p(

y)離散隨機變數:

f(x)=p(x=x)

f必須非負且∑x

f(x)

=1連續隨機變數:

密度函式(dichtfunktion): p(

x∈[a

,b]=

∫baf

(x)d

x)p(x=v)=0

f(x)≥0

∫∞−∞f(x

)dx=

1 離散:e(x)=∑a

∈val

(x)a

∗p(x

=a)

連續:e(x)=∫v

al(x

)x∗f

(x)d

x 方差:var(x)=e(

(x−e

(x))

2)=e

(x2)

−e(x

)2kovarianz和korrelationsmasse的區別:協方差是未標準化得(nicht normiert)而相關比是標準化了的,他的值域是[−

1,1]

//未標準化指不同的背景(上下文kontext)的值,是不可以進行比較的

兩隨機變數的協方差的定義:co

v(x,

y)=e

((x−

e(x)

∗(y−

e(y)

)))

//協方差是用來度量什麼關係的呢??回頭再查吧

乙個隨機變數的與其自身的協方差就是他的方差

協方差矩陣(kovarianzmatrix):用矩陣的形式表示向量隨機變數不同引數的之間的協方差//他是對稱的,可作為pca的輸入

1.學習各種test的構成

2.了解不同test的作用

3.學會應用不同的test

//數學基礎和test的**將不會被提及

目的:比較兩個分布的關聯性(unabhaengigkeit)

方法:對觀察值和期望值進行比較

公式:χ2

=∑m1

i=1∑

m2j=

1(ni

j−ei

j)2e

ij其中m1

表示第乙個屬性有m1個取值,n表示觀測到的出現的個數,e表示出現個數的期望

結果越**明關聯越大

目的:比較兩個不同的分布是否統一或者識別乙個分布是否與**的一致//同時適用於離散和連續的資料

方法:以樣本的累積頻數分布和特定理論分布比較

例子:比較測量的到的天氣溫度是否與**的一樣

1.首先要進行資料收集,然後畫出關於溫度的頻數分布圖

2.然後依據頻數分布圖,求出相應的累積頻數分布

3.用得到的累積頻數分布和事前**的累積頻數分布做比較,計算差值

4.差值越**明**越準確

目的:比較兩個分布的差異性

方法:假定檢測的兩組資料沒有差異。首先不管分組,把所有資料進行排序,並按數值大小給定乙個值叫秩。秩最小為1,最大為n。如果有相同的值,那麼他們的秩相同,其值為各自秩的平均值。如果這兩個組的秩之和比較大就會得到較小的p值,那麼我們就認為這兩個組之間有顯著的差距

//注 這裡關注的並非分布而是中值

//樣本量太小得話效度會很低

//方法這一段是從別人的blog上照搬過來的 原址早在不知處了

//跳了 佔時沒看明白 回看

//名字就是伯努利實驗,但老師上課講得感覺有點不一樣 弄明白再補吧

是指資料庫的一種呈現方式(repräsentation des datenabstands),他占用明顯比較小得空間,但是他的分析結果確實幾乎不變的

他的主要方法有:

1.數量縮減(numerosity reduction) 縮減資料量

2.維度縮減(dimensionality reduction) 縮減屬性

3.離散化(diskretisierung) 簡化儲存值

針對引數化(parametrisch)和非引數化(nichtparametrisch)的分布有不同的方法

針對引數分布的方法(parametrische ve***hren):

假設資料分布符合特定的模型(modell)

估計模型引數,並且只儲存不在狀況內的資料

針對非引數分布的方法(nichtparametrische ve***hren)

沒有假設

常用的方法有:sampling,clustering,histogramme

//未完待續 雖然可能會待很久的說

統計學基礎之方差分析

一 基本概念 二 型別 1 單因素方差分析 2 雙因素方差分析 3 協方差分析 一 基本概念 方差分析又稱 變異數分析 或 f檢驗 用於兩個及兩個以上樣本均數差別的顯著性檢驗。1 實驗條件,即不同的處理造成的差異,稱為組間差異。用變數在各組的均值與總均值之偏差平方和的總和表示,記作ssb,組間自由度...

七周速學資料分析(統計學篇)

前面我們為大家講述了excel 資料視覺化 資料分析思維 資料庫的知識。學會了這些就相當於學會了資料分析一般的內容,但是這些知識並不能構成乙個完整的資料分析知識體系,還需要學習統計學 python r以及業務知識,現在就給大家講解一下統計學的知識。就目前而言,很多資料分析師統計學基礎知識並不是很重視...

大型資料庫的設開發幾點技巧

大型資料庫設計技巧 分類拆分資料量大的表。對於經常使用的表 如某些參數列或 對照表 由於其使用頻率很高,要儘量減少表中的記錄數量。例如,銀行的戶主賬表原來設計成一張表,雖然可以方便程式的設計與維護,但經過分析發現,由於資料量太大,會影響資料的迅速定位。如果將戶主賬表分別設計為活期戶主賬 定期戶主賬及...