機器學習筆記(一) 線性回歸和logistic回歸

2021-08-03 22:49:05 字數 1570 閱讀 3189

最近吸收了不少機器學習方面的知識,寫個筆記來總結一下:

我現在對機器學習的理解當然處於乙個低維,簡單的狀態。與本人拙見,上述兩種演算法的目的是為了得到對應所有特徵的權重

我們來簡單分析一下,cs229給了乙個**房價的例子,那麼對應於我們從直觀上理解的目的,也就是**的房價。其產生的途徑是輸入的特徵值和權重,然而我們想要的就是權重。所以說機器學習的主要目的其實就是得到乙個由權重組成的模型。

同樣是上面房價**的例子,對於我們人類來說,假設給我們n個特徵的值(比如房子面積,建造時間,etc),我們如何去**房價呢?

猜唄

我們做一些找一組數規律的數學題,好比我們知道了這一些數是線性相關的(當然也有可能是服從多項式規律,這個先不談),那麼我們首先就可以得到乙個模型:y=

wx+b

,簡單的一元一次方程。那麼我們現在要做的就是找到(猜出)引數w和b,就可以找到規律了

我們先來推廣一下,現在有n個特徵(輸入,自變數)和對應的輸出y(輸出,因變數),那麼我們的模型就變成了y=

wtx+

b ,這樣的向量的形式。

那麼我們(人類)如何確定這些引數呢?,之後用才出來的結果h(假設)來對應每個y進行檢查,如果每個h都等於y,就說明我們的模型,也就是引數是正確的。

機器學習也是一樣的道理,只不過機器學習面對的是更大規模的資料,和更複雜的問題,為此我們要想衡量我們模型的正確度,就需要計算出誤差,就需要最小二乘法了。

簡單的來說,最小二乘法就是尋找wt

和 b ,使得h和x的均方誤差是最小的。經過複雜的數**算xd……最後找到的引數,就是我們理想的模型。

我們現在有乙個樣本集d,每乙個樣本對應d個屬性

則有h(x) = θ1x1+θ2x2+θ3x3+⋯+θnxn + θ0

現在我們就是要得出所有的θ,使得我們剛才所說的誤差函式為最小,那麼用高中知識來求解最小值大家都知道,但是放到機器上是乙個很大的工程,所以我們可以近似地去求極小值。這裡需要使用梯度下降的方法。

什麼是梯度下降?簡單的說,就是給函式自變數乙個固定增加(減小)的方向,更新方式是這樣的xi

−1=x

i+αg

−k,其中 g−

k 代表負梯度方向,這說明我們要對d個特徵都求一次偏導,。

α 代表學習率,也就是每一次迭代的步長,經過若干次迭代之後,梯度會趨近於零,這時候就相當於找到了最小值。

簡要過程就是,求解h,計算梯度,更新引數,直到迭代結束。

logistic回歸其實不是線性回歸求**值的問題,而是二分類問題。首先我們的線性回歸模型輸出的**值,是乙個實際的數字,那麼星我們想將他部署到而分類問題,就需要讓輸出值轉換到0/1就可以了,這裡引入乙個新的函式sigmoidy=

11+e

−z函式,影象是這樣的:

此時我們將線性模型產生的**值帶入sigmoid函式,函式會輸出相對應的二分類的概率,具體的訓練方法和上面的線性回歸是一樣的,不同的是誤差函式的求導,具體的數學過程不再贅述。

線性回歸是傳統機器學習技術和神經網路技術的基石,首先了解好線性回歸,會對以後的學習有幫助

機器學習筆記 (一)線性回歸

線性回歸又稱為最小二乘法回歸ordinary least squares ols regression。簡單來說就是一條線性函式來很好的擬合已知資料並 未知資料。在回歸分析中,只包括乙個自變數和乙個因變數,且二者的關係可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩...

機器學習 演算法一 線性回歸

監督學習 給定資料集 部分資料集已有標籤,對其進行學習,再分類 分類問題 無監督學習 給定一系列數,讓機器自己發現規律。聚類問題 回歸問題 是指要 乙個連續值的輸出,比如房價 線性回歸是很常見的一種回歸,用來 或者分類,主要解決線性問題 m 訓練集樣本數 x 輸入變數 y 輸出變數 h 假設函式,給...

機器學習入門(一) 線性回歸

機器學習入門 一 線性回歸 基本要素 1 模型 例如針對房價建立簡單模型,只考慮 與時間的關係 price w area area w age age b 2 資料集 找到一組真實資料並稱之為訓練集,我們希望通過訓練集找到與真實情況最接近的上訴模型的未知引數。一條資料稱之為樣本,其 為乙個標籤。被 ...