機器學習 資料探勘筆記 11(高斯過程回歸)

2022-03-23 00:46:04 字數 2287 閱讀 7347

前言:

基礎知識:

首先來看看bayesian linear regression(貝葉斯線性回歸)模型:

其中的d為已知的有監督的訓練樣本。yi為樣本標籤,由

可知,yi可以表示為乙個高斯過程和乙個隨機變數的和。公式中的w是乙個多維高斯分布。

既然已經得知yi的中心是在乙個高維空間的平面上,所以當新來的資料後,就可以**它的均值也在該平面對應的位置上,這就達到了回歸的目的。

在將blr(貝葉斯線性回歸)擴充套件到gpr(高斯過程回歸)前,來看看多維高斯分布的一些重要性質,第乙個性質為兩個相互獨立的多維高斯分布a和b的和也是乙個多維高斯分布c,且c的均值和方差都為a和b均值方差的和。第二個性質為:兩個多維高斯分布之和構成的分布c而言,在已知一部分觀察值c1的條件下,另一部分觀察值c2的概率分布是乙個多維高斯分布,且可以用a和b中對應的資訊來表示。這2個性質的介紹如下:

接下來就是要怎樣利用高斯過程進行回歸運算了。高斯過程回歸的模型如下:

其中的ya為需要**的值,yb為觀察到的值,當然了,xa和xb也是觀察值。由前面博文機器學習&資料探勘筆記_10(高斯過程簡單理解)中介紹的高斯過程存在性定理可知,一旦我們確定了x上的u和k,就可以得到乙個高斯過程zx,此時的樣本值yi可以寫成:

即兩個獨立的多維高斯變數之和。而利用上面多維高斯變數的性質,可推導出需要**的ya在yb條件下的概率:

上面的m和d有解析表示式,因此可以直接求,裡面的的變數都是已知的。其中的m就是我們回歸**的值,而d就是此時**的誤差,兩者表示式和前面類似,如下:

由貝葉斯線性回歸和高斯過程回歸的對比可知,貝葉斯線性回歸是高斯過程回歸中的乙個子集,只是它用的是線性核而已,通過兩者的公式就可以看出它們之間的關係:

上面是貝葉斯線性回歸,下面是高斯過程回歸。

簡單例子:

假設現在已經觀察到了6個樣本點,x為樣本點特徵(一維的),y為樣本輸出值。現在新來了乙個樣本點,要求是用高斯回歸過程來**新來樣本點的輸出值。這些樣本點顯示如下;

其中前面6個點是已知輸出值的訓練樣本,其值為:

第7個點是需要**的樣本,紅色的垂直條形線表示觀察輸出值的誤差,綠色的垂直條形線為用高斯過程回歸的誤差。

用gpr解該問題的流程大概如下(對應前面講的一些基礎知識):

1. 選擇適當的u(均值函式)和k(核函式),以及雜訊變數σ,其中核函式的選擇尤其重要,因為它體現了需處理問題的先驗知識,應根據不同的應用而選擇不同的核。

2. 計算出訓練樣本的核矩陣(6*6),如下:

3. 計算需**的點

與訓練樣本6個點的核值向量,如下:

4. 自己和自己的核值為

且此時整個樣本的多維高斯分布表示式

為:

5. 通過前面m和d的公式,求得m=0.95,d=0.21.

6. 畫出最終結果如下:

這個例子**於**gaussian processes for regression a quick introduction中,它的核函式等引數選擇和基礎知識部分的不同,但這裡主要是對gpr的應用有個簡單的巨集觀上的理解,讓大腦對gpr應用有個初步的印象,否則有了那麼多的公式推導但不會應用又有什麼用呢?

機器學習演算法與Python學習 資料探勘過關40題

1.某超市研究銷售紀錄資料後發現,買啤酒的人很大概率也會購買尿布,這種屬於資料探勘的哪類問題?a.關聯規則發現 b.聚類 c.分類 d.自然語言處理 2.以下兩種描述分別對應哪兩種對分類演算法的評價標準?a 警察抓小偷,描述警察抓的人中有多少個是小偷的標準。b 描述有多少比例的小偷給警察抓了的標準。...

讀《資料探勘 實用機器學習技術》筆記

資料探勘是通過分析存在於資料庫裡的資料來解決問題。在激烈的競爭市場上,客戶忠誠度搖擺問題就是乙個經常提到的事例,乙個有關客戶商品選擇以及客戶個人資料的資料庫是解決這個問題的關鍵。以前客戶的行為模式能夠被用來分析並識別哪些喜歡選購不同的商品。甄別出那些善變的客戶群體,並加以特殊對待,須知對整個客戶群都...

機器學習與資料探勘

機器學習的科學成分更重一些 資料探勘的技術成分更重一些 資料分析的角度 資料探勘並沒有機器學習探索人的學習機制這一科學發現任務 資料探勘中的資料分析是針對海量資料進行的 是一門多領域交叉學科,涉及概率論 統計學 畢竟輪 凸分析 演算法複雜度理論等多門學科,專門研究計算機是怎樣模擬或實現人類的學習行為...