線性回歸演算法梳理

有監督是指訓練模型的資料需要有標籤；

無監督是指訓練模型的資料無標籤；

泛化能力是指在測試集上訓練好的模型是否在其他資料集上同樣有好的表現能力；

過擬合是指模型在訓練集上表現良好，在測試集上表現較差，也就是說模型的泛化能力差；

欠擬合則是指模型在訓練集和測試集上的表現都不好；

方差刻畫了演算法本身的擬合能力，選擇合適的模型，進行足夠的訓練是控制方差的方法；

偏差刻畫了資料擾動對評估結果所造成的影響，合理控制訓練程度是避免高偏差的措施；

交叉驗證是用來評估學習器泛化能力的一種技術，交叉驗證也可以用於超引數的選擇。

線性回歸利用了最小二乘法的原理，即**值與真實值的均方誤差最小

損失函式是針對單個樣本而言，代價函式指的是整個訓練集，都是衡量真實值與**值差距的函式，目標函式是指在代價函式的基礎上增加正則化項，正則化項是用來對引數進行約束的。

梯度下降法是一階收斂，僅考慮了當下走一步的最佳方向，牛頓法在梯度下降的基礎上進行，屬於二階收斂，它同時考慮了每走一步對下一步行走方向的影響，收斂速度更快，擬牛頓法解決了牛頓法中需要求解hessian矩陣的逆矩陣的缺陷，使用正定矩陣來近似hessian矩陣的逆，簡化了運算複雜度。

均方誤差，均方根誤差，r方等。

fit_intercept:預設為true，說明：是否對訓練資料進行中心化,即是否需要b值，若果為false，則不需要；

normalize：預設為false，說明：是否對資料進行歸一化處理；

copy_x：預設為true，說明：是否對x複製，如果選擇false，則直接對原資料進行覆蓋。（即經過中心化，歸一化後，是否把新資料覆蓋到原資料上），true則賦值x；

n_jobs：預設為1，說明：計算時設定的任務個數(number of jobs)，如果選擇-1則代表使用所有的cpu。

機器學習的一些概念有監督有目標值y 無監督無目標值y 泛化能力在集上的能力過擬合欠擬合方差和偏差以及各自解決辦法測試集能力不好叫欠擬合，在測試集上ok，訓練集ng 方差能解決過你和問題，偏差能解決欠擬合問題交叉驗證將樣本分為n分，按照一定的劃分方式劃分訓練集和測試集，互相交叉...

有監督資料做過標記無監督對原始資料進行處理，未做標記泛化能力由訓練資料建立的模型對同類問題的解決能力過擬合模型過於複雜導致解決問題能力差欠擬合模型過於簡單導致擬合資料的能力差方差和偏差以及各自解決辦法交叉驗證當資料比較少時，將資料分成n份，取n 1份做訓練集，1份做驗證集，改...

監督學習資料集中的每個樣本有相應的標籤，根據這些樣本做出無監督學習資料集中沒有標籤。無監督學習的任務是從給定的資料集中，找出可能具有的結構。泛化能力指乙個機器學習演算法對於沒有見過的樣本的識別能力。過擬合欠擬合方差和偏差以及各自解決辦法欠擬合模型沒有很好地捕捉到資料特徵，不能夠很好地擬...