判別分析基礎

與聚類分析的比較

判別分析是判別樣品所屬型別的一種統計方法。

判別分析與聚類分析不同,判別分析是在已知研究物件分成若干型別(或組別)並已取得各種型別的一批已知樣品的觀測資料。在實際中判別分析和聚類分析往往聯合起來用，當總體分類不清楚時,可先用聚類分析對原來的一批樣品進行分類，然後再用判別分析建立判別式以對新樣品進行判別。

判別分析基本思想：樣品和哪個總體距離最近,就判斷它屬於哪個總體。距離判別也稱為直觀判別。

（一）距離判別法

對各類總體的分布並無特定要求

基本思想：首先根據已知分類的資料,分別計算各類的重心即分組(類)的均值；

判別準則：對任給的一次觀測,若它與第i類的重心距離最近,就認為它來自第i類。

分兩種情況，如果各類協方差陣相等，則建立的判別函式為線性判別函式；如果各類協方差陣不相等，則建立的判別函式為二次函式。

（二）fisher判別法

按類內方差盡量小,類間方差盡量大的準則來求判別函式的。

該方法的基本思想是投影，即將原來空間的自變數組合投影到維度較低的空間去，然後再進行分類。（線性判別法lda）

注意：

構造判別式的樣品個數必須至少是指標個數的兩倍；構造判別式的樣品個數不宜太少，否則會影響判別式的優良性；其次判別式選用的指標不宜過多，指標過多不僅使用不方便，還會影響預報的穩定性，在建立判別式之前，應挑選對分類特別有關係的指標。

（三）bayes判別法

首先需要知道待判總體的先驗概率和密度函式(概率函式)，當取得樣本後,就可以用樣本來修正已有的先驗概率分布，得出後驗概率分布，通過後驗概率分布進行各種統計推斷。

實際中遇到的許多總體往往服從正態分佈，所以常用的是正態總體的判別函式，此時分兩種情況：一是假設所有總體的協方差陣相等，這時的判別函式為線性判別函式，即判別函式是從各類合併的協方差陣得來；二是所有總體的協方差陣不等，此時的判別函式為非線性判別函式，即判別函式是從各類協方差陣得來。

如果總體的分布未知或不服從正態分佈，可用非引數方法，來估計類別密度實現分類。此類非引數法包括(kernel method)核密度估計法和knn最近鄰法

（四）逐步判別法

類似於回歸分析,這是一種變數選擇的方法，選擇判別能力高的變數。這個篩選過程實質就是作假設檢驗,通過檢驗找出顯著性變數,剔除不顯著變數。

逐步判別法要求指標變數在各組內服從多元正態分佈，並且具有相同的協方差陣。因此各個類之間的統計差別表現在均值向量上。若各個均值相等，則各個總體的統計差異不顯著，在此基礎上建立判別函式肯定不好。就產生了對各個類均值的假設檢驗。

用前進法選擇變數時，stepdisc過程依據每乙個變數對判別效能貢獻（由wilks` lambda值及相應統計量進行判斷）的大小次序排序，將貢獻最大者作為待選擇變數，然後判斷該變數是否達到事先指定的變數選入標準（依據方差分析的f檢驗）。

用後退法選擇變數時，最初的判別模型包括了所有待選擇的變數，在後續操作的每一步，依據每乙個變數對判別效能貢獻的大小次序，將貢獻最小者作為考察變數，判斷該變數是否達到事先指定的變數剔除標準，如果是則將其剔除模型，直到留下的變數沒有達到事先指定的變數剔除標準。

用逐步法選擇變數時，最初的判別模型與用前進法時的相同，未包含任何變數。後續的每一步操作中，先對已選入模型的變數進行比較，進行剔除操作，再對未入選的變數進行選入操作，重複以上步驟，直到模型中的變數沒有任何乙個達到剔除標準並且模型外的變數沒有任何乙個達到選入標準。

要注意的是，在選入變數的過程中，每一步只選擇乙個變數進入模型，而且在此過程中並未考慮模型外變數之間的關係問題，因此一些重要的變數可能會被排出在模型外，因此在實際應用中，要善於用交叉驗證結果對判別模型進行恰當的評價，wilks` lambda值也並不總是評價判別效能的最佳指標。

判別方法的比較：

fisher判別法隨著總體變數個數的增加，判別式也增加，因此計算起來比較麻煩。bayes判別法對多個總體的判別考慮的不是建立判別式，而是計算新樣品屬於各總體的條件概率，將新樣品判給來自概率最大的總體。

一般用fisher判別即可,要考慮概率及誤判損失最小的用bayes判別，但變數較多時，一般先進行逐步判別篩選出有統計意義的變數，再結合實際情況選擇用哪種判別方法。

附上上文結構：