機器學習十講 第二講回歸

2022-02-15 15:15:47 字數 1130 閱讀 9784

資料酷客 大講堂 機器學習第二講

用乙個或多個自變數來**因變數的數學方法

在機器學習中,回歸指的是一類**變數為連續值的有監督學習方法

在回歸模型中,需要**的變數叫做因變數,用來解釋因變數變化的變數叫做自變數。

一元線性回歸

多元線性回歸

可能遇到的問題

多重共線性

​ 最小二乘的引數估計為 $ \widehat=(xtx)x^ty$ ,如果變數之間存在較強的共線性,則\(x^x\)近似奇異,對引數的估計變得不準確,造成過度擬合現象。

​ 解決方法︰正則化、主成分回歸、偏最小二乘回歸

過度擬合問題

​ 當模型的變數過多時,線性回歸可能會出現過度擬合問題

解決方法

正則化

值得注意的是,當 \(q=2\) 時,為嶺回歸,當 $ q=1 $時,為 \(lasso\)

嶺回歸

​ 當不斷增大正則化引數入,估計引數\(\hat^(\lambda)\)(也稱嶺回歸係數)在座標系上的變化曲線稱為嶺跡。嶺跡波動很大,說明該變數有共線性。

回歸模型評價指標

其中 \(y_i\) 為真實值,\(\bar\) 為真實值的平均值,\(\hat_i\) 為模型估計值

總結

day17 機器學習十講第二講

本講歐老師主要講了回歸的一些列問題,從簡單的線性回歸到嶺回歸 lasso回歸。而回歸問題總的來說就是根據所選定的特徵值,通過選定的引數也就是權重,計算出 的目標值,而學習的過程就是得出最符合的權重,使得 值能夠接近真實的目標值。但是如果乙個模型過於複雜,在訓練時 的很準確,那麼就會出現過擬合的問題,...

機器學習 第二講

多元線性回歸又稱 multivariate linear regression 現在介紹一種可以表示任意輸入變數的符號 現在定義假設函式的多變數形式,包含以下各種引數 h theta x theta 0 theta 1 x 1 theta 2 x 2 theta 3 x 3 cdots theta ...

機器學習十講 第一講

我們將機器學習定義為一組能夠自動檢測模式資料的方法,然後利用未發現的模式來 未來的資料,或者在不確定的情況下執行各種決策 例如計畫如何收集更多的資料 模型和計算能力 深度學習 gpu 分布式系統 廣泛的應用場景 營銷 廣告 金融 交通 醫療等 是指資料採集 資料清洗 資料分析和資料應用的整個流程中的...