機器學習資料探勘筆記 11（高斯過程回歸）

前言：

基礎知識：

首先來看看bayesian linear regression（貝葉斯線性回歸）模型：

其中的d為已知的有監督的訓練樣本。yi為樣本標籤，由

可知，yi可以表示為乙個高斯過程和乙個隨機變數的和。公式中的w是乙個多維高斯分布。

既然已經得知yi的中心是在乙個高維空間的平面上，所以當新來的資料後，就可以**它的均值也在該平面對應的位置上，這就達到了回歸的目的。

在將blr（貝葉斯線性回歸）擴充套件到gpr(高斯過程回歸)前，來看看多維高斯分布的一些重要性質，第乙個性質為兩個相互獨立的多維高斯分布a和b的和也是乙個多維高斯分布c，且c的均值和方差都為a和b均值方差的和。第二個性質為：兩個多維高斯分布之和構成的分布c而言，在已知一部分觀察值c1的條件下，另一部分觀察值c2的概率分布是乙個多維高斯分布，且可以用a和b中對應的資訊來表示。這2個性質的介紹如下：

接下來就是要怎樣利用高斯過程進行回歸運算了。高斯過程回歸的模型如下：

其中的ya為需要**的值，yb為觀察到的值，當然了，xa和xb也是觀察值。由前面博文機器學習&資料探勘筆記_10（高斯過程簡單理解）中介紹的高斯過程存在性定理可知，一旦我們確定了x上的u和k，就可以得到乙個高斯過程zx，此時的樣本值yi可以寫成：

即兩個獨立的多維高斯變數之和。而利用上面多維高斯變數的性質，可推導出需要**的ya在yb條件下的概率：

上面的m和d有解析表示式，因此可以直接求，裡面的的變數都是已知的。其中的m就是我們回歸**的值，而d就是此時**的誤差，兩者表示式和前面類似，如下：

由貝葉斯線性回歸和高斯過程回歸的對比可知，貝葉斯線性回歸是高斯過程回歸中的乙個子集，只是它用的是線性核而已，通過兩者的公式就可以看出它們之間的關係：

上面是貝葉斯線性回歸，下面是高斯過程回歸。

簡單例子：

假設現在已經觀察到了6個樣本點，x為樣本點特徵（一維的），y為樣本輸出值。現在新來了乙個樣本點，要求是用高斯回歸過程來**新來樣本點的輸出值。這些樣本點顯示如下;

其中前面6個點是已知輸出值的訓練樣本，其值為：

第7個點是需要**的樣本，紅色的垂直條形線表示觀察輸出值的誤差，綠色的垂直條形線為用高斯過程回歸的誤差。

用gpr解該問題的流程大概如下（對應前面講的一些基礎知識）：

1. 選擇適當的u（均值函式）和k（核函式），以及雜訊變數σ，其中核函式的選擇尤其重要，因為它體現了需處理問題的先驗知識，應根據不同的應用而選擇不同的核。

2. 計算出訓練樣本的核矩陣（6*6），如下：

3. 計算需**的點

與訓練樣本6個點的核值向量，如下：

4. 自己和自己的核值為

且此時整個樣本的多維高斯分布表示式

為：

5. 通過前面m和d的公式，求得m=0.95，d=0.21.

6. 畫出最終結果如下：

這個例子**於**gaussian processes for regression a quick introduction中，它的核函式等引數選擇和基礎知識部分的不同，但這裡主要是對gpr的應用有個簡單的巨集觀上的理解，讓大腦對gpr應用有個初步的印象，否則有了那麼多的公式推導但不會應用又有什麼用呢？

機器學習資料探勘筆記 11（高斯過程回歸）

機器學習演算法與Python學習資料探勘過關40題

讀《資料探勘實用機器學習技術》筆記

機器學習與資料探勘

機器學習 資料探勘筆記 11（高斯過程回歸）

機器學習演算法與Python學習 資料探勘過關40題

讀《資料探勘 實用機器學習技術》筆記

機器學習與資料探勘

相關推薦

機器學習資料探勘筆記 11（高斯過程回歸）

機器學習演算法與Python學習資料探勘過關40題

讀《資料探勘實用機器學習技術》筆記