統計學習方法 機器學習概論

2022-01-24 01:08:15 字數 4264 閱讀 4179

統計學習,或者說機器學習的方法主要由監督學習無監督學習強化學習組成(它們是並列的,都屬於統計學習方法)。

1、假設資料獨立同分布。(同資料來源的不同樣本之間相互獨立)

2*、假設要學習的模型屬於某個函式的集合,稱為假設空間。(你確定了這個函式的樣式,就是假設空間,但是函式裡面的引數不確定,要學習。學習的是引數,比如把$y = 2x_1 + 3x_2$學成了$y = 3x_1+2x_2$,而不能學成$y = 3x_1^2+3x_2$)

3、應用某個評價準則,從假設空間中選乙個最優模型,讓模型對輸入(訓練資料或測試資料)具有最優**。(構造乙個損失函式,作為優化的判斷依據)

4、使用一定的演算法優化這個損失函式。

所以它的三要素是:模型(2)、策略(3)、演算法(4)

1、得到乙個有限的訓練資料集合。

2、確定包含所有可能的模型的假設空間,即學習模型的集合。

3、確定模型選擇的準則,即學習的策略。

4、實現求解最優模型的演算法,即學習的演算法。

5、通過學習方法選擇最優模型。

6、利用學習的最優模型對新資料進行**或分析。

統計學習或機器學習一般包括監督學習、無監督學習、強化學習。有時還包括半監督學習、主動學習。

監督學習是指從標註資料中學習**模型的問題。

標註資料表示輸入到輸出的關係,目標是讓模型能通過輸入**輸出,也就是學習輸入到輸出的對映的統計規律。

訓練集由n個輸入向量$x_i$和輸出$y_i$的對組成:

$t = \$

輸入例項$x_i$用向量表示:

$x_i = (x_i^, x_i^, ..., x_i^)^t$

監督學習的應用中,根據輸入和輸出的連續或是離散,訓練模型的任務又取名為不同的名稱:(注意!這是在監督學習中的分類)

1、回歸問題:輸入變數和輸出變數都是連續變數

2、分類問題:輸出變數為有限離散變數。(算上回歸問題,就剩輸入為有限離散,輸出為連續變數這種情況沒考慮,但是這個沒有現實意義,所以沒有。並且無限離散變數也沒有現實意義。)

3、標註問題:輸入與輸出均為變數序列(向量)的**問題是標註問題,實際上就是分類問題或是回歸問題的推廣

監督學習假設輸入$x$與輸出$y$遵循聯合概率分布$p(x, y)$。所以學習的過程就是擬合這個聯合概率分布的過程。

因為聯合概率分布的具體定義是未知的(所以要我們自己先假設乙個假設空間,假設它符合某個分布,再通過機器學習來計算它的引數),並且我們無法獲得樣本全體,而只能通過有限的樣本來估計它的分布,所以這就是機器學習的困難所在。

儘管我們假設輸入輸出服從某個分布,我們還是可以把模型分為概率模型和非概率模型(因為是監督學習,就是生成模型判別模型),分別由條件概率分布$p(y|x)$ 和決策函式$y = f(x)$表示:

1、$p(y|x)$ :假設乙個聯合分布分布$p(x, y)$,使用回歸問題任務來擬合聯合概率分布$p(x, y)$,**$x = x$的輸出分布時候就是通過這個聯合概率分布計算條件分布$p(y|x = x) = \frac$(這個學過概率論的人都知道)。特殊地,對於$y$是有限離散的情況,$p(y|x = x)$就是幾個離散值的概率分布,如:$p(y=y_1,x=x)=0.2, p(y=y_2,x=x)=0.3, p(y=y_3,x=x)=0.5$。對於$y$是連續的情況,$p(y|x = x)$就是連續值$y$的概率密度,如某個正態分佈。

2、$y = f(x)$:就沒那麼追求假設分布的過程了,它直接設乙個函式,只求訓練出函式的引數使得$f(x)$能夠最大程度地接近真實$y$,而**時則直接代入$x$來計算$y$的值。

書中關於監督學習的圖:

通過學習,模型表現為條件概率分布$\hat(y|x) $(由擬合出的聯合分布除以$x$的邊緣分布求出,邊緣分布用聯合分布對$y$積分求出)或決策函式$y = \hat(x)$,上面加的符號表示擬合(非真實)的意思。**時,通常分別用$y_ = \mathop\limits_ \hat(y|x_)$,$y_ = \hat(x_)$給出相應的$y_**$。

無監督學習是指從無標註資料中學習**模型的機器學習問題。本質是學習資料中的統計規律潛在結構,可以實現對資料的聚類降維概率估計

假設$\mathcal$是輸入空間,$\mathcal$是隱式結構空間。模型就可以表示為函式$z = g(x)$,條件概率分布$p(z|x)$或$p(x|z)$的形式,其中$x\in \mathcal$為輸入,$z\in \mathcal$為輸出。

書中關於無監督學習的圖:

對於輸入$x_$,由上圖的模型給出輸出$z_$,進行聚類、降維或統計概率。

強化學習是指智慧型系統在與環境的連續互動中學習最優行為策略的機器學習問題。

半監督學習是指利用標註資料和未標註資料學習**模型的機器學習問題。

主動學習是指機器不斷主動給出例項讓教師進行標註,然後利用標註資料學習**模型的機器學習問題。

機器學習模型可以分為概率模型和非概率模型(確定性模型)。監督學習中又叫生成模型和判別模型(上面講過),生成模型實際上學習到的是生成資料的機制。無監督模型中,概率模型就是用條件分布**,非概率模型就是函式值直接**(上面也講過)。

決策樹、樸素貝葉斯、隱馬爾可夫模型、條件隨機場、概率潛在語義分析、潛在狄利克雷分配、高斯溫合模型是概率模型。

感知機、支援向量機、k 近鄰、adaboost 、k 均值、潛在語義分析,以及神經網路是非概率模型。

邏輯斯諦回歸既可看作是概率模型,又可看作是非概率模型。

條件概率分布$p(y|x)$和函式$y = f(x)$可以相互轉化:

具體地說,條件概率分布中取概率最大的$y$就轉變為了函式;

而函式值進行歸一化後,就能獲得條件概率分布,我的理解是:從**$y = f(x = x_i) = y_i$變成概率$p(y=y_i|x=x_i) = 1, p(y=y_|x=x_i) = 0$。強制轉換,好像沒啥用,畢竟條件概率分布是通過聯合概率分布獲得的,這樣直接轉換沒有任何意義。

所以,概率模型和非概率模型的區別不在於輸入與輸出之間的對映關係,而在於模型的內在結構。概率模型一定可以表示為聯合概率分布的形式,其中的變數表示輸入、輸出、隱變數甚至引數。而針對非概率模型則不一定存在這樣的聯合概率分布,但是因為它直接**輸出的值,所以通常**會更加準確一些。

概率模型的代表是概率圖模型,概率圖模型是聯合概率分布由有向圖或者無向圖表示的概率模型,而聯合概率分布可以根據圖的結構分解為因子乘積的形式。(這個還要再學習一下)

非概率模型(函式)可以分為線性模型與非線性模型。如果函式$y = f(x) $或$z = g(x) $是線性函式,就是線性模型,否則就是非線性模型。

感知機、線性支援向量機、k 近鄰、k 均值、潛在語義分析是線性模型。核函式支援向量機、adaboost 、神經網路是非線性模型。

引數化模型假設模型引數的維度固定,模型可以由有限維引數完全刻畫;非引數化模型假設模型引數的維度不固定或者說無窮大,隨著訓練資料量的增加而不斷增大。

感知機、樸素貝葉斯、邏輯斯諦回歸、k 均值、高斯混合模型是引數化模型。決策樹、支援向量機、adaboost 、k 近鄰、潛在語義分析、概率潛在語義分析、潛在狄利克雷分配是非引數化模型。

學習和**在乙個系統,每次接受乙個輸入$x_t$,用己有模型給出**$\hat(x_t)$ ,之後得到相應的反饋,即該輸入對應的輸出$y_t$;系統用損失函式計算兩者的差異,更新模型;並不斷重複以上操作。如圖:

機器學習 統計學習方法概論

統計學習由監督學習 supervised learning 非監督學習 unsupervised learning 半監督學習 semi supervised learning 和強化學習 reinforcement learning 組成。統計學習方法包括模型的假設空間 模型的選擇準則以及模型學習...

統計學習方法 1 統計學習方法概論

統計學習的主要特點是 1 統計學習以計算機及網路為平台,是建立在計算機及網路之上的 2 統計學習以資料為研究物件,是資料驅動的學科 3 統計學習的目的是對資料進行 與分析 4 統計學習以方法為中心,統計學習方法構建模型並應用模型進行 與分析 5 統計學習是概率論 統計學 資訊理論 計算理論 最優化理...

統計學習方法概論

這篇文章是對李航 統計學習方法 第一章的乙個回顧,主要是希望對統計學習基本概念 方法做乙個濃縮的總結,希望能對像我一樣的初學者有所幫助。假如有某些地方講的不對的,可以指明,以期促進。統計學習概念 關於計算機基於資料構建概率統計模型並運用模型進行資料 與分析的一門科學。它以計算機及網路為平台,以資料為...