機器學習之監督學習 回歸

2021-08-18 07:24:38 字數 2428 閱讀 5112

回歸問題

分類問題的區別在於:其待**的目標是

連續變數

線性回歸器

如果面對訓練資料十分龐大的任務,隨機梯度法不論是在分類還是在回歸問題上都表現得十分高效,可以在不損失過多效能的前提下,節省大量計算時間(根據scikit-learn官網的建議,如果資料規模超過10萬,推薦使用隨機梯度估計引數模型)

eg:最小二乘

特點分析:線性回歸器是最為簡單、易用的回歸模型。正式因為其對特徵與回歸目標之間的線性假設,從某種程度上說也侷限了其應用範圍。

支援向量機(回歸)

核函式:支援向量機通過某非線性變換 φ( x) ,將輸入空間對映到高維特徵空間。特徵空間的維數可能非常高。如果支援向量機的求解只用到內積運算,而在低維輸入空間又存在某個函式 k(x, x′) ,它恰好等於在高維空間中這個內積,即k( x, x′) =<φ( x) ⋅φ( x′) > 。那麼支援向量機就不用計算複雜的非線性變換,而由這個函式 k(x, x′) 直接得到非線性變換的內積,使大大簡化了計算。這樣的函式 k(x, x′) 稱為核函式。

核函式是一項非常有用的特徵對映技巧,通過某種函式計算,將原有的特徵對映到更高維度的空間,從而盡可能達到新的高維度特徵線性可分的程度。

《在數學中,

數量積(dot product; scalar product,也稱為

點積、內積)>

非線性變換:每個輸出值的變化量與其相應的輸入值的變化量之比不是常數的轉換

不同核函式配置下的支援向量機回歸模型在測試集上的回歸效能存在非常大的差異。

在使用了徑向基核函式對特徵進行非線性對映之後,支援向量機展現了最佳的回歸效能。

徑向基函式

徑向基函式是乙個取值僅僅依賴於離原點距離的實值函式,也就是φ(x)=φ(‖x‖),或者還可以是到任意一點c的距離,c點稱為中心點,也就是φ(x,c)=φ(‖x-c‖)。任意乙個滿足φ(x)=φ(‖x‖)特性的函式φ都叫做徑向基函式,標準的一般使用歐氏距離(也叫做歐式徑向基函式)

k近鄰(回歸)

衡量待測樣本回歸值的不同方式:

1.對k個近鄰目標數值使用普通的算術平均演算法

2.同時考慮距離的差異進行加權平均

實驗表明:相比之下,採用加權平均的方式回歸,具有更好的**效能

回歸樹

決策樹每個葉節點依照訓練資料表現的概率傾向決定了其最終的**類別,而回歸樹的葉節點卻是乙個具體的值

特點分析

1.樹模型可以解決非線性特徵的問題

2.樹模型不要求對特徵標準化和統一量化,即數值型和類別型特徵都可以直接被應用在樹模型的構建和**過程中

3.因為上述原因,樹模型可以直觀地輸出決策過程,使得**結果具有可解釋性

同時,樹模型也有一些顯著地缺陷:

1.正是因為樹模型可以解決複雜的非線性擬合問題,所以更加容易因為模型搭建過於複雜而喪失對新資料**的精度(泛化力)

2.樹模型自上而下的**流程會因為資料細微的更改而發生較大的結構變化,因此**穩定性較差

3.依託訓練資料構建最佳的樹模型是np難問題,即在有限時間內無法找到最優解的問題,因此我們所使用類似貪婪演算法的解法只能找到一些次優解,這也是為什麼我們經常借助整合模型,在多個次優解中尋覓更高的模型效能。

np問題是指存在多項式演算法能夠解決的非決定性問題,而其中np完全問題又是最有可能不是p問題的問題型別。所有的np問題都可以用多項式時間劃歸到他們中的乙個。所以顯然np完全的問題具有如下性質:它可以在多項式時間內求解,當且僅當所有的其他的np-完全問題也可以在多項式時間內求解。

p就是能在多項式時間內解決的問題,np就是能在多項式時間驗證答案正確與否的問題。用大白話講大概就是這樣。所以p是否等於np實質上就是在問,如果對於乙個問題我能在多項式時間內驗證其答案的正確性,那麼我是否能在多項式時間內解決它?這個表述不太嚴謹,但通俗來講就是如此。

整合模型(回歸)

極端隨機森林

與普通的隨機森林模型不同的是,極端隨機森林在每構建一棵樹的**節點的時候,不會任意地選取特徵,而是先隨機收集一部分特徵,然後利用資訊熵和基尼不純性等指標挑選最佳的節點特徵

特點分析:

許多在業界從事商業分析系統開發和搭建的工作者更加青睞整合模型,並且經常以這些模型的效能表現為基準,與新設計的其他模型效能進行對比。雖然這些整合模型在訓練過程中要耗費更多的時間,但是往往可以提供更高的表現效能和更好的穩定性。

補充一些這一領域常見詞彙:

classification 分類

regression 回歸

clustering 聚類

dimensionality reduction 降維

機器學習 監督學習 (回歸)嶺回歸

1 嶺回歸 標準方程法 import numpy as np from numpy import genfromtxt import matplotlib.pyplot as plt 讀入資料 data genfromtxt r longley.csv delimiter 切分資料 x data d...

機器學習之有監督學習 回歸

線性回歸.py import matplotlib.pyplot as plt import numpy as np from sklearn import linear model 讀取資料集 datasets x 房屋尺寸 datasets y 房屋 fr open prices.txt r l...

機器學習之監督學習

一 監督學習的三要素 模型 總結資料的內在規律,用數學函式描述的系統 策略 選取最優模型的評價準則 演算法 選取最優模型的具體方法 二 監督學習的實現步驟 1.得到乙個有限的訓練資料集 2.確定包含所有學習模型的集合 3.確定模型選擇的準則,也就是學習策略 4.實現求解最優模型的演算法,也就是學習演...