DATAWHALE線性回歸梳理

2021-09-11 16:09:06 字數 1789 閱讀 1896

(1)有監督和無監督學習是機器學習的常用辦法。有監督就是通過已有的一些資料輸入和輸出的關係,去得到乙個模型(該模型相當於乙個函式,將所有的輸入對映為相應的輸出,從而達到分類的目的);無監督:直接對資料進行建模,得到相似的一類,如聚類。那哪種情況下採用監督學習或無監督學習呢?我想最簡單的一種方法就是根據定義來選擇最合適的。 (2)泛化能力是指機器學習演算法對新鮮樣本的適應能力。

(3)過擬合,為了得到一致假設而使假設變得過度複雜叫過擬合,可能是因為樣本資料少的原因。例如,假設h屬於乙個假設空間h,而存在h』屬於h,使的h的錯誤率小於h』,但實際是大於,這就是h過度擬合訓練資料。特點就是高方差(方差是指模型對資料的依賴程度)和低偏差(偏差是指我們忽略了多少的資料)

(4)欠擬合就是模型不能很好的捕捉到資料特徵,也就不能很好的擬合資料。可以增加特徵點的數量解決欠擬合問題。

(5)交叉驗證,拿出大部分樣本進行建模,小部分樣本用模型進行預報,並求他們的預報誤差,一直進行到所有樣本被預報且僅預報一次。

線性回歸原理:乙個或多個稱為回歸係數(自變數和因變數)的模型引數的線性組合。線性回歸屬於監督學習

(1)線性回歸損失函式

損失函式之所以使用平方形式,是使用了「最小二乘法」的思想,這裡的「二乘」指的是用平方來度量觀測點與估計點的距離(遠近),「最小」指的是引數值要保證各個觀測點與估計點的距離的平方和達到最小。

(2)代價函式

m 訓練集數量

x(i),y(i) 第i個觀察例項

(3)目標函式

優化方法

要找到乙個最好的函式,就要cost function最小,而梯度下降法或牛頓法等是能夠找到cost function的最小值。

梯度下降法就是我們向下走一步,看哪個方向跨度更大

先確定向下一步的步伐大小;任意給定乙個初始值θ0,θ1;確定乙個向下的方向,並向下走預先規定的步伐,更新兩個θ引數,直到下一步步伐小於某個定義的值時停止。

評估指標

值越大越好,但不超過1。當其值接近於0,表明訓練模型接近於基準模型,即模型擬合很差。

rmse 指的是均方根誤差:

mae 指的是評價絕對誤差:

sklearn引數詳解

linearregression(fit_intercept(是否有截距)=true,normalize=false(資料是否歸一化),copy_x=true,n_jobs=1)後面兩值一般預設。

線性回歸梳理

機器學習的一些概念 有監督 訓練資料的結果已被告知 無監督 不告訴結果,讓演算法自行判斷 過擬合 高方差,低偏差 解決辦法 使用正則化項 欠擬合 高偏差,低方差。這時增加樣本數量是沒用的。解決辦法 增加特徵 可以通過學習曲線判斷學習演算法是處於欠擬合還是過擬合。交叉驗證 機器學習中確定超引數的通用的...

DataWhale學習筆記線性回歸

模型 線性回歸是機器學習中最為基礎和理解的模型,但很多的模型都是建立在該模型之上。在模型的構建中,線性回歸的目的是求解資料集中特徵屬性x以及類別y之間的對映關係。通過優化函式 本文採用隨機梯度下降法 降低模型 值與y之間的差別。為了簡單起見,本文對放假模型進行 這裡我們假設 只取決於房屋狀況的面積 ...

線性回歸演算法梳理

機器學習的一些概念 有監督 有目標值y 無監督 無目標值y 泛化能力 在 集上的 能力 過擬合欠擬合 方差和偏差以及各自解決辦法 測試集 能力不好叫欠擬合,在測試集上ok,訓練集ng 方差能解決過你和問題,偏差能解決欠擬合問題 交叉驗證 將樣本分為n分,按照一定的劃分方式劃分訓練集和測試集,互相交叉...