吳恩達機器學習筆記2 單變數邏輯回歸

一、邏輯回歸（logistics 回歸）直觀印象

邏輯回歸是用來解決分類問題，比如給定乙個腫瘤的直徑大小（x），要**出它是良性（0）還是惡性（1），如圖1-1。

【圖1-1】

如圖中我們可以直觀地看到，當尺寸大於3cm，是惡性腫瘤的概率就比較大，當尺寸大於5cm，幾乎百分之百是惡性的。

於是圖中的關係就可以轉換成概率與尺寸的函式影象，如圖1-2所示。

【圖1-2】

圖中縱軸表示1、0的概率，橫軸表示尺寸，如尺寸大小為3cm時，良性或惡性的概率各50%。隨後尺寸越大，惡性的可能則越大，反之亦然。

進一步地將該影象一般化，將尺寸大小放縮之後（如x-3），當尺寸小於0時偏向良性，尺寸大於0時，偏向惡性。即可得如下被影象（稱為sigmoid函式影象）。

【圖1-3】

二、如何分類

通過給定且已經分好類的資料集，我們如何來建立模型呢？如圖2-1（橫軸為x1，縱軸為x2，藍色點為0，紅點為1）.

【圖2-1】

從圖中我們可以直觀地看到紅點分布在圖偏下方，藍點分布在圖偏上方。

【圖2-2】

圖中綠色的線大致上把紅藍點的分布區域一分為二，該線可稱之為決策界限（決策邊界），綠線往上為1，綠線往下為0，邏輯回歸主要目的就是求出這麼『一條線』。

在上文我們說到，可以將分類資料建立乙個sigmoid函式，其表示式為：

，當g(z)>0.5（即z>0）時，趨向1；當g(z)<0.5（即z<0）時，趨向0。

因此，定義我們的邏輯回歸的**函式為h(wtx) = g(wtx)，其中wtx是w1*x1+w2*x2+...+wn*xn。即可推得：wtx=0時是決策邊界(綠線)；當wtx>0時，趨向1；wtx<0時，趨向0。

其中圖2-2的**函式h(wtx)可以表示為

。三、代價函式

關於**函式h(wtx)，我們當然希望它誤差越小越好。

於是便建立相關的代價函式j(wt)，以求出其最小代價（誤差）。

在代價函式j(wt)中，通過給定x1,x2的值**出來的結果與實際結果誤差越大，則代價越大，反之亦然。

【圖3-1】

【圖3-2】

圖3-1為y=1的代價函式影象，其中縱軸為代價，橫軸為**值。可以看到**值=1時代價最小，為0，若**值越不精準，其代價就會越大。圖3-2同理。

為了便於計算，將函式合併為乙個式子：

（當y=1時，式子右邊後半便為0，只計算前半部分）。

於是代價函式為

四、梯度下降

其求最小代價與線性回歸一致，這裡直接給出計算公式。

α為學習率，重複以上過程直至收斂。

最終得到wt的各個值，代入h(wtx)便為我們所求的邏輯回歸**函式。

線性回歸演算法用直線來擬合資料 h0 x 0 1 x,要想h0 值接近y 實際值也就是使得值和實際值的平方誤差和最小，可用平方代價誤差函式來解決。平方代價誤差函式說明平方是為了保證正值，二分之一m的目的是求導計算變化率後消掉係數。假設h,引數代價函式j，優化目標如何進行機器學習？如...

說明本文是本人用於記錄學習吳恩達機器學習的學習筆記，如有不對之處請多多包涵.一模型的描述下面的這張是對於課程中一些符號的基本的定義吳老師列舉的最簡單的單變數線性回歸方程二代價函式這節課的主要目標是如何選擇這個模型的兩個引數下圖是吳老師的分析怎麼將模型轉化求解需要的兩個引數 h x 的...

為了解決實際生活中的問題，我們通常需要乙個數學模型。比如，小明有乙個房子他想賣掉房子為了知道房子的小明收集了該地區近兩年的房屋交易他發現房屋與房屋大小呈正相關，所以他畫了了一幅圖小明的房屋大小用紅色的代替。可見和小明房屋一樣大小的房子並不存在，而類似的房屋又有很大差別，如此小明決定用...