穩定性檢驗

2021-09-27 03:15:59 字數 2741 閱讀 4955

3種主要的穩健性檢驗途徑

1. 從資料出發, 替換不同的樣本進行檢驗樣本是否有問題;

2. 從變數出發,根據其它不同指針對樣本進行分類後,檢查分類後的樣本是否對y特徵的顯著性有影響;

3. 從計量方法出發, 用不同的工具或檢驗方法。。

可以用ols, fix effect, gmm等來回歸,看結果是否依然robust;

方差分析主要有三種模型:即固定效應模型(fixed effects model),隨機效應模型(random effects model),混合效應模型(mixed effects model)。

乙個非常好的部落格! 

之前在學習中遇到高斯混合模型,卡了很長一段時間,在這裡記下學習中的一些問題以及解決的方法。希望看到這篇文章的同學們對高斯混合模型能有一些基本的概念。全文不廢話,直接上重點。

1.什麼是高斯混合模型?

2.高斯混合模型的數學原理?

3.高斯混合模型在matlab中如何使用?

一、什麼是高斯混合模型?

高斯混合模型,英文全稱:​​gaussian mixture model,簡稱gmm。高斯混合模型就是用高斯概率密度函式(二維時也稱為:正態分佈曲線)精確的量化事物,將乙個事物分解為若干基於高斯概率密度函式行程的模型。這句話看起來有些深奧,這樣去理解,事物的數學表現形式就是曲線,其意思就是任何乙個曲線,無論多麼複雜,我們都可以用若干個高斯曲線來無限逼近它,這就是高斯混合模型的基本思想。那麼下圖(圖1.1)表示的就是這樣的乙個思想。

好,我們繼續,對於圖1.1,換一種方式理解,曲線是模擬一組資料的結果,而這些資料分布情況如圖1.2所示。那麼此時gmm模擬出的曲線就有了現實的意義,這時就可以用構造好的gmm模型來表達這些資料,相比於儲存資料,使用gmm中的引數來表達資料要方便簡單的多,並且是數學上有完整的表示式。

圖1.2  資料分布情況

反過來思考,假如先拿到的是圖1.2,知道了資料的分布情況。如何用曲線和數學表示式來逼近模擬它呢?答:用高斯混合模型來做,做出來的結果如圖1.1所示,圖1.1中上方的曲線是由若干個高斯函式疊加而成的。以上就是高斯混合模型的基本概念。

增加資料維度,得到更為複雜一點的結果如圖1.3所示​,這也是我們經常看到gmm情況。 ​

題外話:高斯混合模型也​被視為一種聚類方法,是機器學習中對「無標籤資料」進行訓練得到的分類結果。其分類結果由概率表示,概率大者,則認為屬於這一類。 ​

二、高斯混合模型的數學原理

在二維的情況下,理解起來很簡單,如圖1.1表示的那樣,乙個複雜的曲線可以用若干個組合起來的高斯函式​來逼近。

在三維的情況下,同樣的理解:任何乙個曲面都可以用高斯函式來逼近。

在n維的情況下,任何乙個模型都可以用高斯函式來逼近。(當然,這裡用到的「高斯函式」的維度是跟著資料的變化而變化的)。好,這裡重新複習了一下gmm的概念。數學原理我們從最簡單的二維開始來理解,由淺入深。

2.1 二維高斯函式

​(對於圖2.3,解釋一下,當時理解上出了一點小問題,把圖中的二維都視為三維就好了,不影響。)

這裡對圖2.2和圖2.3進行說明,​u1和u2是均值,均值u的物理意義就是高斯混合模型的中心,這個中心可以表示為(u1,u2),標準差sigma決定高斯函式的形狀,這和二維情況是一樣的。在圖2.3中下方兩個圖可以看到,從某乙個二維座標系來看,三維高斯函式可以簡化為二維高斯函式。協方差rou表示的是資料的相關性。

​2.3 n維高斯函式

​      n維高斯函式數學表示式由圖2.4給出,其協方差的概念由圖2.5給出。

​2.4 高斯混合模型的數學原理

​     前面我們首先了解了高斯混合模型是什麼:用高斯函式近似表示曲線或者曲面。然後鋪墊了部分數學基礎:從二維到n維高斯函式的表示式及其引數的物理意義。下面由圖2.6給出高斯混合模型的數學表示式

看到這個表示式是不是很高興,沒有想象中那麼難,很簡單的一行。這裡說明一下:

(1)x是隨機變數,可以理解為維度不定向量,x的維度決定了g(x)的維度,g(x)是單一高斯函式,也就是n維的高斯函式,其中n可以為任意整數,n由x的維度決定。

(2)​回到之前的那個問題,用若干個高斯函式近似乙個曲線或者曲面,無論這個曲線或者曲面是簡單或複雜。要想實現近似,需要確定用多少個高斯函式來近似,這個高斯函式的個數用k表示,k的意義就是:gmm中單一高斯函式的個數。再專業一點,稱k為gmm中成分的個數,其中成分指的就是單一高斯函式。【成分這個詞在gmm中的由來是因為matlab中將gmm中高斯函式個數用「componentproportion」來表示,譯為「成分」】

(3)混合權重中:每個單一高斯函式在gmm中所起的作用是不一樣的,混合權重在決定了單一高斯函式在gmm中起的作用,可以聯想本文中圖1.1,擬合這條曲線的每個高斯函式的高度都是不一樣的。​​

(4)維度的問題,這個比較好理解。維度就是隨機變數x的維度,也就是單一高斯函式g(x)的維度,主要是由隨機變數x的維度決定的。當乙個高斯混合模型維數為n、成分為k​時,我們稱之為:k個成分n階的高斯混合模型。

了解了以上概念之後,要確定乙個高斯混合混合模型,要怎麼做呢?關鍵是確定圖2.6中的引數,如何確定?這裡要用到em演算法【em演算法,指的是最大期望演算法(expectation maximization algorithm,又譯期望最大化演算法),是一種迭代演算法,在統計學中被用於尋找,依賴於不可觀察的隱性變數的概率模型中,引數的最大似然估計。】

接下來從單一高斯函式入手,從2成分的gmm到k成分的gmm詳述了引數的確定方法,給出了推導過程,對引數概念不明白的地方可以看圖2.7 高斯混合模型引數概念

mysql穩定性 MySQL的穩定性

isam表處理器 穩定 它管理所有在mysql 3.22和早期版本中的資料的儲存和檢索。在所有mysql版本中,中已經沒有乙個單獨 報告的 錯誤。得到乙個損壞的資料庫表的唯一已知方法是在乙個更新中途殺死伺服器,即使這樣也不大可能破壞任何資料而不能挽救,因為所有資料在每個查詢之間被倒入 flush 到...

排序穩定性

這幾天筆試了好幾次了,連續碰到乙個關於常見排序演算法穩定性判別的問題,往往還是多選,對於我以及和我一樣拿不準的同學可不是乙個能輕易下結論的題目,當然如果你筆試之前已經記住了資料結構書上哪些是穩定的,哪些不是穩定的,做起來應該可以輕鬆搞定。本文是針對老是記不住這個或者想真正明白到底為什麼是穩定或者不穩...

架構穩定性

1.壓測知道你的容量,設定報警線 讀通過tcpcopy,寫通過染色資料,如此引入線上資料回放測試 2.如果出現事故如何引導使用者 3.拆分業務初期耦合的邏輯,拆分為介面間呼叫 4.拆服務,拆庫,避免乙個庫掛掉,全站掛掉 5.避免高峰上線,提前引入壓測 6.日誌監控,各模組流量監控 7.每一次上線都要...