R語言學習筆記(八)判別分析

2021-10-08 11:44:42 字數 3143 閱讀 4429

線性判別分析

距離判別法

多總體距離判別

bayes判別法

主要參考

判別分析是多變數統計分析中用於判別樣品所屬型別的一種統計分析方法,用於研究在一些已知研究物件已經用某種方法分成若干類的情況下,確定新的樣品屬於已知類別中的哪一類的問題。

其基本思想是:按照一定的判別準則,建立乙個或多個判別函式,用研究物件的大量資料確定判別函式中的待定係數,並計算判別指標,從而確定某一樣本屬於何類。

判別分析方法(屬

於確定性

判別

)bayes判別(屬於概率性判別)

\text \begin \left. \begin &\text\\ &\text\\ &\text \end \right\}(屬於確定性判別) \\ \text \end

判別分析方法⎩⎪

⎪⎪⎪⎨

⎪⎪⎪⎪

⎧​​距離判別

線性判別

非線性判別​⎭

⎪⎬⎪⎫

​(屬於

確定性判

別)bayes判別(

屬於概率性判別)​

設欲建立的線性判別函式為:y=a

1x1+

a2x2

+⋯+a

pxp=

a′

xy=a_1x_1+a_2x_2+\cdots+a_px_p=a'x

y=a1​x

1​+a

2​x2

​+⋯+

ap​x

p​=a

′x.求fisher線性判別函式

分離度λ

\lambda

λ要求:

λ =(

y1‾−

y2‾)

2sp2

\lambda=\frac-\overline)^2}

λ=sp2​

(y1​

​−y2

​​)2

​其中sp2

s_p^2

sp2​

為合併協方差矩陣,且

s p2

=(n1

−1)s

12+(

n2−1

)s22

n1+n

2−

2s_p^2=\frac

sp2​=n

1​+n

2​−2

(n1​

−1)s

12​+

(n2​

−1)s

22​​s1

2s_1^2

s12​

和s 22

s_2^2

s22​

為各組的協方差矩陣。

fisher判別目的是選擇合適的x

xx的線性組合,使得均值y1‾

\overline

y1​​

和y 2‾

\overline

y2​​

之間的分離度達到最大。

計算判別界值y

0y_0

y0​

y 0=

a′(x

1‾+x

2‾)2

y_0=\frac+\overline)}2

y0​=2a

′(x1

​​+x

2​​)

​ 建立判別標準

\text\overline<\overline\text,\,\texty\overline\text,\,\texty⎩⎪

⎨⎪⎧​

當y1​

​​​時,

若y​,則x

∈g1​

,否則x∈

g2​;

當y1​

​>y2

​​時,

若y​,則x

∈g2​

,否則x∈

g1​;

當y=y

0​時,

待判.​使用r語言進行線性判別的函式lda()

lda(formula, data, ...)
# 匯入資料

d6.1 <- read.csv("d6.1.csv");

attach(d6.1)

plot(x1, x2)

text(x1, x2, g, adj=-.5)

library(mass)

# 線性判別模型

lda.sol <- lda(g~x1+x2)

lda.sol

z <- predict(lda.sol)

newg<- z$class # 得到**的所屬類別結果

cbind(g, z$x, newg) # 按列組合並顯示對應的**結果

sum(diag(prop.table(tab))) # 計算符合率
其思想是:根據已知分類的資料,分別計算各類的重心,即各組的均值。

其準則是:對任給的一次觀測,若它與第i

ii類的重心距離最近,就認為它來自第i

ii類。

按距離最近準則判別歸類,即:

\textd(x,\,g_1)d(x,\,g_2),\,\textx\in g_2;\\ \textd(x,\,g_1)=d(x,\,g_2),\,\text.\\ \end

⎩⎪⎨⎪⎧​

當d(x

,g1​

)x,g2

​),則

x∈g1

​;當d

(x,g

1​)>d(

x,g2

​),則

x∈g2

​;當d

(x,g

1​)=

d(x,

g2​)

,待判.​

使用二次判別函式qda()進行判別分析。

可分為協方差矩陣相同和協方差矩陣不同兩種情況。

由於上述的判別方法存在兩個缺點:未考慮概率以及錯判後造成的損失,bayes判別則考慮了上述的兩個因素。

判別準則:以個體歸屬於某類的概率(或某類的判別函式值)最大或錯判總平均損失最小。

同樣考慮協方差矩陣是否相等的情況。

[1]《多元統計分析及r語言建模(第四版)》王斌會。

R語言學習 第九課 判別分析

discriminat analysis,是多變數統計中用於判別樣品所屬類別的一種統計分析方法。它所解決的問題是在一些已知研究物件已經用某種方法分成若干類的情況下,確定新的樣品屬於已知類別中的哪一類。判別分析的主要方法如下 1 fisher判別 fisher判別的基本思想是投影,是將k個總體gi的所...

用R實現判別分析

判別分析判斷樣本所屬的類別,其依據是那些已知類別樣本的屬性資訊。主流的三大判別分析演算法費希爾判別 貝葉斯判別和距離判別 費希爾判別的基本思想就是投影,即將高維空間的點向低維空間投影,從而簡化問題進行處理 投影軸的要求,保證每一類之內的投影值所形成的類內離差盡可能小,不同類之間的投影所形成的類間離差...

R語言學習筆記(八) 功效分析

t檢測 計算期望的樣本大小 install.packages pwr library pwr pwr.t.test d 8,sig.level 05,power 9,type two.sample two sample t test power calculation n 33.82555 樣本大小...