機器學習之PCA 1

2022-05-06 22:24:15 字數 2708 閱讀 2027

• 連續潛變數模型

• 經常有一些資料的未知的潛在的原因

• 到目前為止,我們已經看了模型與離散的潛變數,如混合高斯模型的。

• 有時,依照我們觀察到的資料是由連續因素控制的去思考更合適。

• 動機:對於許多資料集,資料點處於接近比原來的資料空間維數低得多的複本(manifold)。

• 訓練連續潛變數模型通常被稱為降維,因為通常有許多更少的潛在維度。

• 例子:主成分分析、因子分析、獨立成分分析。

內在的潛在維度

•這兩個資料中的內在潛在維度是什麼

• 我們如何從高維資料中找到這些潛在的維度。

人類是生活在三維空間裡的動物,但是**是二維的。

內在的潛在維度

• 在這個資料集,只有3自由度的可變性——垂直水平對應翻譯,和旋轉

每個影象進行隨機位移和旋轉在一些更大的影象。

結果影象100*100 = 10000畫素。

產生式觀點:

• 每個資料示例生成都來自於選擇在乙個在隱空間中的分布的乙個點,然後從輸入空間的條件分布中生成乙個點

*.最簡單潛變數模型:假設潛變數和觀測變數均為高斯分布。

*這導致概率公式的主成分分析和因子分析。

*我們首先看看標準主成分分析,然後考慮它的概率的形成。

概率公式的優點:使用em進行引數估計, pcas(主成分分析技術)的混合、貝葉斯pca。

pca(主成分分析:principal component analysis )

用途:用於資料壓縮、視覺化、特徵提取,降維。

目標是在d維資料中找到潛在的m主成分——

選擇s的(資料協方差矩陣)m個最高(top)特徵向量:;

也就是選擇其中比較具有代表性的特徵組成乙個向量。

投射每個輸入向量x到這個子空間,比如:

ui=  1*n維,

資料的特徵有m個,資料有n個,這樣是n*m維,

完整投影成m維需要的形式:

兩個視角/派生: 

最大化方差(綠點的散射)。

最小化錯誤(每個資料點紅綠距離)。

最大方差公式

考慮資料集,xn 屬於r(

)。我們的目標是把資料投射到乙個m維空間(m維

• 考慮投影到m = 1維空間。

用d維單位向量u1定義這個空間的方向,所以

目的:最大化投影資料相對於u1的方差(這意味著包含更多的資訊)

是樣本均值(期望),

s資料協方差矩陣。

n是樣本數量。

u1第乙個特徵

用整個樣本去最大化特徵u1.

其中樣本均值資料協方差為:

PCA 1 降維原理

上圖為含有兩個特徵的樣本空間,資料的維度為2,可以忽視乙個不明顯的特徵,保留乙個相對差距明顯的特徵進行降維 顯然選擇特徵1效果好一點 我們也可以選擇一條更適合的直線 方差最大 把所有的點對映到這個直線上,來達到降維的目的 方差定義 var x frac sum x i bar 2 第一步 將所有樣本...

機器學習 PCA

介紹 pca是一種無監督學習的降維技術 思想1.投影後樣本越分散,保留的資訊越多 2.pca的主要思想是將n維特徵對映到k維上,這k維是全新的正交特徵也被稱為主成分,是在原有n維特徵的基礎上重新構造出來的k維特徵 做法1.將所有的樣本點向直線w投影 2.目標函式 讓投影後樣本的方差極大 第一步 x減...

機器學習之PCA降維

1.前言 如果學習分類演算法,最好從線性的入手,線性分類器最簡單的就是lda,它可以看做是簡化版的svm,如果想理解svm這種分類器,那理解lda就是很有必要的了。2.線性判別分析 lda 1 lda思想 lda是一種監督學習的降維技術,也就是說它的資料集的每個樣本是有類別輸出的。這點和pca不同。...