一些與機器學習有關的概念

有監督學習是從標籤化訓練資料集中推斷出函式的機器學習任務。訓練資料由一組訓練例項組成。其基本思想是，我們資料集中的每個樣本都有相應的「正確答案」。再根據這些樣本作出**，就像房子和腫瘤的例子中做的那樣。我們還介紹了回歸問題，即通過回歸來推出乙個連續的輸出，之後我們介紹了分類問題，其目標是推出一組離散的結果。

用已知某種或某些特性的樣本作為訓練集，以建立乙個數學模型(如模式識別中的判別模型，人工神經網路法中的權重模型等)，再用已建立的模型來**未知樣本，此種方法稱為有監督學習。是最常見的機器學習方法。

在無監督學習中，我們已知的資料。看上去有點不一樣，不同於監督學習的資料的樣子，即無監督學習中沒有任何的標籤或者是有相同的標籤或者就是沒標籤。所以我們已知資料集，卻不知如何處理，也未告知每個資料點是什麼。別的都不知道，就是乙個資料集。你能從資料中找到某種結構嗎？針對資料集，無監督學習就能判斷出資料有兩個不同的聚集簇。這是乙個，那是另乙個，二者不同。是的，無監督學習演算法可能會把這些資料分成兩個不同的簇。所以叫做聚類演算法。事實證明，它能被用在很多地方。

回歸一詞指的是，我們根據之前的資料**出乙個準確的輸出值，對於這個例子就是**，

在分類問題中，你要**的變數是離散的值，我們將學習一種叫做邏輯回歸 (logistic regression) 的演算法，這是目前最流行使用最廣泛的一種學習演算法。

點乘的幾何意義是可以用來表徵或計算兩個向量之間的夾角，以及在b向量在a向量方向上的投影，有公式：

推導過程如下，首先看一下向量組成：

定義向量：

根據三角形餘弦定理有：

根據關係c=a-b（a、b、c均為向量）有：

即：向量a，b的長度都是可以計算的已知量，從而有a和b間的夾角θ：

根據這個公式就可以計算向量a和向量b之間的夾角。從而就可以進一步判斷這兩個向量是否是同一方向，是否正交(也就是垂直)等方向關係，具體對應關係為：

a·b>0 方向基本相同，夾角在0°到90°之間

a·b=0 正交，相互垂直

a·b<0 方向基本相反，夾角在90°到180°之間

（有的地方也叫損失函式，loss function）在機器學習中的每一種演算法中都很重要，因為訓練模型的過程就是優化代價函式的過程，代價函式對每個引數的偏導數就是梯度下降中提到的梯度，防止過擬合時新增的正則化項也是加在代價函式後面的。

（1）概況來講，任何能夠衡量模型**出來的值h(θ)與真實值y之間的差異的函式都可以叫做代價函式c(θ)，如果有多個樣本，則可以將所有代價函式的取值求均值，記做j(θ)。因此很容易就可以得出以下關於代價函式的性質：

（2）當我們確定了模型h，後面做的所有事情就是訓練模型的引數θ。那麼什麼時候模型的訓練才能結束呢？這時候也涉及到代價函式，由於代價函式是用來衡量模型好壞的，我們的目標當然是得到最好的模型（也就是最符合訓練樣本(x, y)的模型）。因此訓練引數的過程就是不斷改變θ，從而得到更小的j(θ)的過程。理想情況下，當我們取到代價函式j的最小值時，就得到了最優的引數θ，記為：

minθj(θ)minθj(θ)

例如，j(θ) = 0，表示我們的模型完美的擬合了觀察的資料，沒有任何誤差。

（3）在優化引數θ的過程中，最常用的方法是梯度下降，這裡的梯度就是代價函式j(θ)對θ1, θ2, ..., θn的偏導數。由於需要求偏導，我們可以得到另乙個關於代價函式的性質：

經過上面的描述，乙個好的代價函式需要滿足兩個最基本的要求：能夠評價模型的準確性，對引數θ可微。

2.1 均方誤差

j(θ0,θ1)=12m∑i=1m(y^(i)−y(i))2=12m∑i=1m(hθ(x(i))−y(i))2j(θ0,θ1)=12m∑i=1m(y^(i)−y(i))2=12m∑i=1m(hθ(x(i))−y(i))2

m：訓練樣本的個數；

hθ(x)：用引數θ和x**出來的y值；

y：原訓練樣本中的y值，也就是標準答案

上角標(i)：第i個樣本

一些與機器學習有關的概念

與指令有關的一些概念

關於機器學習的一些概念

機器學習整理的一些概念

一些與機器學習有關的概念

與指令有關的一些概念

關於機器學習的一些概念

機器學習整理的一些概念

相關推薦