線性回歸梳理

2021-09-25 22:19:30 字數 961 閱讀 7166

機器學習的一些概念

有監督:訓練資料的結果已被告知

無監督:不告訴結果,讓演算法自行判斷

過擬合:高方差,低偏差

解決辦法:使用正則化項

欠擬合:高偏差,低方差。這時增加樣本數量是沒用的。

解決辦法:增加特徵

可以通過學習曲線判斷學習演算法是處於欠擬合還是過擬合。

交叉驗證:機器學習中確定超引數的通用的方法,用以評價不同分類器的效能。

超引數:超引數是在開始學習過程之前設定值的引數,而不是通過訓練得到的引數資料。

線性回歸的原理:用線性模型盡可能擬合資料,**乙個連續輸出的值。

損失函式:乙個樣本的誤差

代價函式:整個樣本集的誤差的平均值

目標函式:cost function + regularization

優化方法

梯度下降法:種求區域性最優解的方法,對於f(x),在a點的梯度是f(x)增長最快的方向,那麼它的負方向則是該點下降最快的方向,又稱最速下降法。

牛頓法:利用迭代點求一階導數(梯度)和二階導數(hessen矩陣)求解。牛頓法收斂速度相比梯度下降法很快,而且由於hessen矩陣的的逆在迭代中不斷減小,起到逐漸縮小步長的效果。

擬牛頓法:不求二階偏導數,構造出乙個近似的hessen矩陣。

牛頓法和擬牛頓法都是無約束優化演算法。

線性回歸的評估指標:均方誤差、均方根誤差

sklearn

sklearn是scipy的擴充套件,建立在numpy和matplolib庫的基礎上。

scikit-learn(sklearn)是機器學習中常用的第三方模組,對常用的機器學習方法進行了封裝,包括回歸(regression)、降維(dimensionality reduction)、分類(classfication)、聚類(clustering)等方法。

線性回歸演算法梳理

機器學習的一些概念 有監督 有目標值y 無監督 無目標值y 泛化能力 在 集上的 能力 過擬合欠擬合 方差和偏差以及各自解決辦法 測試集 能力不好叫欠擬合,在測試集上ok,訓練集ng 方差能解決過你和問題,偏差能解決欠擬合問題 交叉驗證 將樣本分為n分,按照一定的劃分方式劃分訓練集和測試集,互相交叉...

DATAWHALE線性回歸梳理

1 有監督和無監督學習是機器學習的常用辦法。有監督就是通過已有的一些資料輸入和輸出的關係,去得到乙個模型 該模型相當於乙個函式,將所有的輸入對映為相應的輸出,從而達到分類的目的 無監督 直接對資料進行建模,得到相似的一類,如聚類。那哪種情況下採用監督學習或無監督學習呢?我想最簡單的一種方法就是根據定...

線性回歸演算法梳理

有監督 資料做過標記 無監督 對原始資料進行處理,未做標記 泛化能力 由訓練資料建立的模型對同類問題的解決能力 過擬合 模型過於複雜導致解決問題能力差 欠擬合 模型過於簡單導致擬合資料的能力差 方差和偏差以及各自解決辦法 交叉驗證 當資料比較少時,將資料分成n份,取n 1份做訓練集,1份做驗證集,改...