拓端tecdat R語言使用混合模型進行聚類

2021-09-26 10:25:46 字數 2702 閱讀 3165

混合模型是k個分量分布的混合,它們共同形成混合分布:f(x )f(x)

f(x )= σk = 1ķαķfķ(x )f(x)=∑k=1kαkfk(x)

讓我們通過乙個例子激發您為何使用混合模型的原因。讓我們說有人向您展示了以下密度圖:

我們可以立即看到所得到的分布似乎是雙峰的(即有兩個凸起),表明這些資料可能來自兩個不同的**。

head(faithful)

## eruptions waiting

## 1 3.600 79

## 2 1.800 54

## 3 3.333 74

## 4 2.283 62

## 5 4.533 85

## 6 2.883 55

該資料是2列data.frame

執行混合模型聚類時,您需要做的第一件事是確定要用於元件的統計分布型別。 

正態分佈由兩個變數引數化:

我們將用 **來演示gmm的實際應用:

實際上很簡單; 紅色和藍色線僅表示2種不同的擬合高斯分布。平均值分別為:

mixmdl$mu

## [1] 54.61489 80.09109

分別具有以下標準偏差:

mixmdl$sigma

## [1] 5.871244 5.867716

mixmdl$lambda

## [1] 0.3608869 0.6391131

另乙個重要方面是每個輸入資料點實際上被分配了屬於這些元件之一的後驗概率。我們可以使用以下**檢索這些資料:

post.df 

head(post.df, 10) #

##     x          comp.1         comp.2

## 1 79 0.0001030875283 0.999896912472

## 2 54 0.9999093397312 0.000090660269

## 3 74 0.0041357268361 0.995864273164

## 4 62 0.9673819082244 0.032618091776

## 5 85 0.0000012235720 0.999998776428

## 6 55 0.9998100114503 0.000189988550

## 7 88 0.0000001333596 0.999999866640

## 8 85 0.0000012235720 0.999998776428

## 9 51 0.9999901530788 0.000009846921

## 10 85 0.0000012235720 0.999998776428

x列表示資料的值,而comp.1和comp.2分別表示屬於任一元件的後驗概率。

終端使用者決定使用什麼「閾值」將資料分配到組中。例如,可以使用0.3作為後閾值來將資料分配給comp.1並獲得以下標籤分布。

拓端tecdat R語言實現有限混合模型建模分析

有限混合模型在應用於資料時非常有用,其中觀察來自不同的群體,並且群體隸屬關係未知。首先,我們將模擬一些資料。讓我們模擬兩個正態分佈 乙個平均值為0,另乙個平均值為50,兩者的標準差為5。m1 m2 sd1 n1 n2 a b 現在讓我們將資料 混合 在一起.引數怎麼樣?cat pred c1 1 n...

拓端tecdat R語言旅行推銷員問題TSP

常用術語中的旅行推銷員問題 tsp 是最複雜的問題之一,歸結為組合優化。旅行到n個城市 頂點 需要檢查 n 1 可能性。3,000個地點有4 10 9131個可能的解決方案。以下 輸入您的tsp225.csv檔案並輸出您的解決方案和視覺化。生成的 tour 物件是一類tour和整數 它包含您的解決方...

拓端tecdat R語言最優化問題中的共軛函式

在回歸模型研究中,我們將討論優化,而經典工具就是所謂的共軛。給定函式f rp r,其共軛值為函式f rp r使得 視覺化考慮乙個簡單的拋物線函式 在維度1中 f x x 2 2,然後f 2 是線x 2x與函式f x 之間的最大距離。f function x x 2 2 fstar function ...