（二）機器學習概念

首先我想提一提資料這個概念。

資料整體叫資料集（data set）。每乙個資料集都可以使用類似於**的形式表達出，下面**中展示了一種花的三種不同種類。

每一行資料我們稱為乙個樣本（sample）。在上面的**中，一行資料其實就是代表一朵花的資訊這一朵花就是乙個樣本。除了最後一列，每一列都表達了乙個樣本的乙個特徵（feature），可以將乙個特徵理解為乙個屬性。

通常在我們的機器學習任務中，這一部分我們用乙個大寫的x來表示。而且通常這部分是乙個矩陣，這個矩陣有多少行就說明我們有多少個樣本，有多少列說明我們有多少屬性。

其實，最後一列是乙個特殊的一列，我們稱之為標記（label）。在具體的表示上，我們通常使用乙個小寫的y來表示。

那麼，我們具體表示如下

在這裡，我們抽出萼片長度和萼片寬度這兩個特性進行分析，其中萼片長度作為橫軸，萼片寬度作為縱軸，在座標系上表示如下。為了視覺化方便，我們只選取了兩個特徵進行分析，所以可以在二維座標中進行表示，如果我們有兩個及以上的特徵進行分析，那麼就可以相應地在三維，四維及以上座標上進行表示。

每乙個樣本的本質其實就是在這些特徵所組成的乙個空間中的乙個點，這個空間我們就稱為特徵空間（feature space）。在上圖中，我們可以很清晰地看出兩種花在空間分布中具有極大的不同，我們可以用一條直線將其在空間中進行切分。其實分類任務的本質就是在特徵空間中進行切分。

在這裡特別強調的是，由於視覺化的需要，很多時候我們需要把特徵的數量降到兩個甚至只有乙個來說明這個原理，其實實際情況，通常我們對於乙個資料而言，都是具有非常多的特徵的，我們是可以無縫推廣到高維空間的。

但是在我們機器學習的領域，很多時候特徵是很抽象的。

舉個栗子，對於影象識別來說，最簡單的方式就是將影象的每乙個畫素點都看作乙個特徵。比如，下圖是乙個放大的手寫的數字5，放大之後，每乙個畫素點都代表乙個小方塊，每乙個小方塊的深淺不同就代表了不同的值，在 minst 資料集中，每乙個數字都是 28 * 28 的影象，那麼每乙個影象都有 28*28=784 個特徵。換句話說，我們為了描述這個影象，可以使用 784 個數，每乙個數其實就是是代表著從左上角到右下角每乙個畫素點把它排開，這個點所對應的灰度值的深淺是多少來描述這個圖形，我們可以使用這些特徵來放進我們的機器學習演算法。

（二）機器學習概念

機器學習 二 基本概念

機器學習概念

機器學習概念

相關推薦

機器學習二基本概念