機器學習基礎演算法筆記

2021-09-14 01:42:39 字數 1898 閱讀 8839

緒論

接下來我們來看看在機器學習裡面的一些演算法

1.線性回歸

是利用稱為線性回歸方程序的最小平方函式對乙個或多個自變數和應變數之間關係進行建模的一種回歸分析。這種函式是乙個或多個稱為回歸係數的模型引數的線性組合。只有乙個自變數的情況稱為簡單回歸,大於乙個自變數情況的叫做多元回歸。

線性回歸是回歸分析中第一種經過嚴格研究並在實際應用中廣泛使用的型別。這是因為線性依賴於其未知引數的模型比非線性依賴於其未知引數的模型更容易擬合,而且產生的估計的統計特性也更容易確定。

線性回歸有很多實際用途。分為以下兩大類:

如果目標是**或者對映,線性回歸可以用來對觀測資料集的和x的值擬合出乙個**模型。當完成這樣乙個模型以後,對於乙個新增的x值,在沒有給定與它相配對的y的情況下,可以用這個擬合過的模型**出乙個y值。

給定乙個變數y和一些變數,這些變數有可能與y相關x1…xp,線性回歸分析可以用來量化y與xj之間相關性的強度,評估出與y不相關的xj,並識別出哪些xj的子集包含了關於y的冗餘資訊。

線性回歸模型經常用最小平方逼近來擬合,但他們也可能用別的方法來擬合,比如用最小化「擬合缺陷」在一些其他規範裡(比如最小絕對誤差回歸),或者在橋回歸中最小化最小平方損失函式的懲罰。相反,最小平方逼近可以用來擬合那些非線性的模型。因此,儘管「最小平方法」和「線性模型」是緊密相連的,但他們是不能劃等號的。

損失函式

3 線性回歸的評估方法

3.1 均方誤差(mse)

y代表測試集

用真實值減去**值平方之後求和平均

3.2 均方跟誤差(rmse)

這不就是mse開個根號麼。有意義麼?其實實質是一樣的。只不過用於資料更好的描述。

例如:要做房價**,每平方是萬元,我們**結果也是萬元。那麼差值的平方單位應該是千萬級別的。那我們不太好描述自己做的模型效果。於是乾脆就開個根號就好了。我們誤差的結果就跟我們資料是乙個級別的,在描述模型的時候就說,我們模型的誤差是多少萬元。

類似於求l1得損失

4 sklearn 線性回歸引數詳解及**範例

引數:fit_intercept: 布林型,預設為true

說明:是否對訓練資料進行中心化。如果該變數為false,則表明輸入的資料已經進行了中心化,在下面的過程裡不進行中心化處理;否則,對輸入的訓練資料進行中心化處理

normalize布林型,預設為false

說明:是否對資料進行標準化處理

copy_x 布林型,預設為true

說明:是否對x複製,如果選擇false,則直接對原資料進行覆蓋。(即經過中心化,標準化後,是否把新資料覆蓋到原資料上)

n_jobs 整型, 預設為1

說明:計算時設定的任務個數(number of jobs)。如果選擇-1則代表使用所有的cpu。這一引數的對於目標個數》1(n_targets>1)且足夠大規模的問題有加速作用。

返回值:

coef_ 陣列型變數, 形狀為(n_features,)或(n_targets, n_features)

說明:對於線性回歸問題計算得到的feature的係數。如果輸入的是多目標問題,則返回乙個二維陣列(n_targets, n_features);如果是單目標問題,返回乙個一維陣列 (n_features,)。

intercept_ 陣列型變數

**示例 請參考

參考文獻

牛頓法梯度下降法

泛化能力

機器學習基礎學習筆記 機器學習基礎介紹

概念 多領域交叉學科,設計概率論 統計學 逼近論 凸分析 演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。學科定位 人工智慧 artificial intelligence,ai 的核心,是是計算機具有智慧型...

機器學習實戰筆記 1 機器學習基礎

監督學習的兩個任務 分類和回歸分析 數值型資料 分類方法思路 這個表至關重要,叫做特徵向量表 特徵1特徵2 目的變數 類別 例項1 例項2 如上表,分類思路如下 用大量的已分類資料 其目標變數的值已給出 組成的訓練集進行訓練,該訓練集由若干個訓練樣本構成,每個訓練樣本是乙個例項 測試樣本 不提供目標...

機器學習基礎演算法(一)

簡介 k 近鄰法是一種基本分類與回歸方法。基本原理為 存在乙個已知資料集,每個資料集都存在標籤,輸入沒有標籤的新資料後,將新的資料的每個特徵與樣本集中資料對應的特徵進行比較,然後演算法提取樣本最相似資料 最近鄰 的分類標籤。一般來說,我們只選擇樣本資料集中前k個最相似的資料,這就是k 近鄰演算法中k...