機器學習 第一講

2021-07-22 19:36:46 字數 2914 閱讀 5507

在監督學習中,我們給出資料組,並且已經知道正確的輸出是什麼樣,明確輸入和輸出之間的關係

監督學習問題可以歸類為回歸(regression)分類(classification)問題。

回歸問題上,我們嘗試**乙個連續(continuous)的輸出結果,也就是說我們嘗試去map輸入變數到一些連續的方程。

分類問題上,我們嘗試**乙個離散(discrete)的輸出結果,也就是說我們嘗試去map輸入變數到離散的分類。

例如:

在非監督學習中,可以解決事先不知道結果會怎麼樣的問題。我們不必知道資料是否有效就可以根據資料派生出結構。

我們可以通過集群(clustering)基於資料中變數之間關係的資料派生出這種結構。

非監督學習沒有基於**結果的反饋修正,就像沒有老師糾正一樣。

例如:

在回歸問題中,我們使用輸入變數去滿足乙個連續輸出變數的期望結果函式。

單變數線性回歸也叫做「univariate linear regression」。

當我們想從乙個單輸入值 x **乙個單輸出值 y 時使用單變數線性回歸。這裡我們使用監督學習,這意味著我們事先知道輸入輸出的關係和應該達到什麼效果。

我們的假設函式通常為:y^

=h(x

)=θ0

+θ1x

注意這個像等式一樣的直線。我們根據 \(\theta_0\ 和\ \theta_1 給定\ h_(x) \ \)的值,然後估計 \(\hat\)。換句話說,我們嘗試建立乙個 \(h_\theta\) 的函式去map我們的輸入資料(x的)到我們的輸出資料(y的)。

例如:假設輸入的訓練組資料為:

input      output

x y

0 4

1 7

2 7

3 8

現在我們隨機的做乙個關於 \(h_\) 的猜測:\(\theta_ = 2, \theta_ = 2 \)。則假設方程為 \(h_(x) = 2 + 2x\)。

於是如果輸入為 1 ,y 則為 4 。 與實際的 y 差 3 。注意我們將會嘗試大量的 \(\theta_\) 和 \(\theta_\) ,找出最合適的值(y最貼近真實值)。圖形上表示的是一條最有代表性的直線。(!補圖)

我們可以使用成本函式獲得精確的假設函式。成本函式取得乙個關於輸入x的假設的結果和真實的y的對比的均值(實際上是乙個比較理想的均值)j(

θ0,θ

1)=1

2m∑i

=1m(

yi^−

yi)2

=12m

∑i=1

m(hθ

(xi)

−yi)

2 分解來看,這個方程表示的是 \(\frac\bar\), \(\bar\) 是 \(h_(x_)-y_\) 的平方的均值,或者是**值和真實值的不同。

這個方程又稱「平方誤差函式(squared error function)」或者「均值平方誤差(mean squard error)」。 「均值」是一半(\(\frac\)),這方便計算計算梯度下降(gradient descent),平方函式的導數將會抵消 \(\frac\) .

現在我們可以具體的(通過已知的正確結果)衡量我們**的方程的精確度,從而**我們沒有的新結果。

如果考慮視覺化,訓練組的資料分散在 x-y 平面。我們嘗試去畫一條穿過分散的資料的直線(根據 \(h_(x)\) 定義)。我們的目標是獲得可能性最高的直線。可能性最高的直線應該是所有分布的點與這條垂直距離最短的直線。最理想的情況是這條線通過訓練組資料所有的點,此時 \(j(\theta_, \theta_)\) 值為0。(!補圖)

我們已經有了假設函式並且有衡量它與資料適配程度的方法。現在我們需要去估計假設函式中的引數,於是我們需要梯度下降。

想象一下我們根據 \(\theta_\) 和 \(\theta_\) 繪出我們的假設函式(事實上是通過成本函式的估計引數)。這有點混亂,我們將這個進行更高一級的抽象。我們沒有繪x和y本身,而是繪假設函式和成本函式裡引數的範圍。

我們將 \(\theta_\) 設為x軸, \(\theta_\) 設為 y 軸,成本函式設為垂直 x-y 的 z 軸。圖中的點是成本函式使用我們的假設值theta引數得出的結果。

我們可以通過檢視我們的成本函式是否在圖形最底部(最小值)判斷是否成功。

使用的方法是用成本函式的導數(函式的切線)。切線的斜率是那一點的導數,將會給我們乙個導數前進的方向。我們一步一步朝著導數最陡峭的方向下降,每次下降的幅度由引數 \(\alpha\) 決定,稱作學習速率(learning rate)。

梯度下降演算法如下:

repeat until convergence:θ

j:=θj

−α∂∂

θjj(

θ0,θ

1)其中 \(j = 0 , 1\) 代表著引數的索引號

當應用到線性回歸中的乙個具體情況時,可以派生出乙個新的梯度下降等式形式。我們可以將我們實際的成本函式和實際的假設函式和修改過的等式替換成以下式子:

repeat until convergence:

其中 \(m\) 是訓練組的大小, \(\theta_\) 是和 \(\theta_\) 同時變化的常數,\(x_\) 和 \(y_\) 是給定訓練組的值。

注意將 \(\theta\) 分為兩種情況計算,\(\theta_\) 代表 \(\theta_\) 和 \(\theta_\) ,對於 \(\theta_\) 需要在最後乘 \(x_\) 。

重複以上方程我們得到的假設會越來越準確。

機器學習第一講

含義 資料集中的樣本帶有標籤,有明確目標 回歸模型 線性回歸 嶺回歸 lasso和回歸樣條等 分類模型 邏輯回歸 k近鄰 決策樹 支援向量機等 垃圾郵件分類 病理切片分類 客戶流失預警 客戶風險評估 房價 等。資料集中的樣本沒有標籤,沒有明確目標 無監督學習 根據資料本身的分布特點,挖掘反映資料的內...

機器學習十講 第一講

我們將機器學習定義為一組能夠自動檢測模式資料的方法,然後利用未發現的模式來 未來的資料,或者在不確定的情況下執行各種決策 例如計畫如何收集更多的資料 模型和計算能力 深度學習 gpu 分布式系統 廣泛的應用場景 營銷 廣告 金融 交通 醫療等 是指資料採集 資料清洗 資料分析和資料應用的整個流程中的...

機器學習10講 第一講

一丶大資料分析和人工智慧已經成為整個社會發展最主要的基礎推動力,兩者的基礎都是機器學習。大資料分析火熱的深刻原因 模型和計算能力 深度學習 模型顯示 gpu 加快深度學習的訓練 分布式系統 提高訓練的能力,水平 廣泛的應用場景 營銷,廣告,金融,交通,醫療等。二丶data y f x data 資料...