線性回歸的基本概念

2021-09-29 02:16:49 字數 1640 閱讀 6382

線性回歸是機器學習中最簡單也是最重要的模型之一,其模型建立同樣遵循上圖流程:獲取資料、資料預處理、訓練模型、應用模型。

回歸模型可以理解為:存在乙個點集,用一條曲線去擬合它分布的過程。如果擬合曲線是一條直線,則稱為線性回歸。如果是一條二次曲線,則被稱為二次回歸。線性回歸是回歸模型中最簡單的一種。

假設函式(hypothesis function)

損失函式(loss function)

優化演算法(optimization algorithm)

假設函式:

假設函式是指,用數學的方法描述自變數和因變數之間的關係,它們之間可以是乙個線性函式或非線性函式。 在本次線性回顧模型中,我們的假設函式為 ,其中,y^=

ax1+

b\hat = ax_1 + b

y^=ax1

​+b表示模型的**結果(**房價),用來和真實的y區分。模型要學習的引數即:a,b。

損失函式:

損失函式是指,用數學的方法衡量假設函式**結果與真實值之間的誤差。這個差距越小**越準確,而演算法的任務就是使這個差距越來越小。建立模型後,我們需要給模型乙個優化目標,使得學到的引數能夠讓**值y

^\hat

y^盡可能地接近真實值y。輸入任意乙個資料樣本的目標值y

iy_i

yi​和模型給出的**值yi^

\hat

yi​^

​ ,損失函式輸出乙個非負的實值。這個實值通常用來反映模型誤差的大小。

對於線性模型來講,最常用的損失函式就是均方誤差(mean squared error, mse)。 mse

=1n∑

i=1n

(yi^

−yi)

2mse =\frac \sum_^(\hat-y_i)^2

mse=n1

​i=1

∑n​(

yi​^

​−yi

​)2

即對於乙個大小為n的測試集,mse是n個資料**結果誤差平方的均值。

優化演算法:

在模型訓練中優化演算法也是至關重要的,它決定了乙個模型的精度和運算速度。本章的線性回歸例項中主要使用了梯度下降法進行優化。

梯度下降是深度學習中非常重要的概念,值得慶幸的是它也十分容易理解。損失函式j(w

,b)j(w,b)

j(w,b)

可以理解為變數w

ww和b

bb的函式。觀察下圖,垂直軸表示損失函式的值,兩個水平軸分別表示變數w

ww和b

bb。實際上,可能是更高維的向量,但是為了方便說明,在這裡假設w

ww和b

bb都是乙個實數。演算法的最終目標是找到損失函式的最小值。而這個尋找過程就是不斷地微調製數w

ww和b

bb的值,一步一步地試出這個最小值。而試的方法就是沿著梯度方向逐步移動。本例中讓圖中的圓點表示損失函式的某個值,那麼梯度下降就是讓圓點沿著曲面下降,直到取到最小值或逼近最小值。

因為是凸函式,所以無論初始化在曲面上的哪一點,最終都會收斂到同一點或者相近的點。

機器學習筆記(1) 基本概念和線性回歸

計算機從程式經驗e中學習,解決某一任務t,進行某一效能的度量p,通過p測定在t上的表現因經驗e而提高。簡單來說就是從大量的資料學習中,得到乙個符合現實的規律模型,通過模型來 某個資料的結果。首先給演算法乙個包含正確答案的資料集,通過訓練來調整目標函式的引數,使用目標函式獲得更多的正確答案。監督學習中...

機器學習筆記(一)基本概念與單變數線性回歸

傳統機器學習演算法主要包括以下五類 1 線性回歸 找到一條直線來 目標值 2 邏輯回歸 找到一條直線來分類資料 3 k 鄰近 用距離度量最相鄰的分類標籤 4 樸素貝葉斯 選擇後驗概率最大的類為分類標籤 5 決策樹 構造一顆熵值下降最快的分類樹 6 支援向量機 svm 構造超平面,分類非線性資料 7 ...

基本概念 C 基本概念

由於工作中需要用到c 編寫的一些工具,有時候需要根據需求修改或者定製工具,所以現在不得不學習一下c 的基礎語法,此為筆記,不成章法!機器語言 組合語言 高階語言 面向過程的程式設計方法 物件導向的程式設計方法 泛型程式設計方法 1 演算法設計 2 源程式編輯 3 編譯 4 連線 5 執行除錯 輸入裝...