線性回歸，決策樹，knn等6種機器學習回歸方法總結

線性回歸所能夠模擬的關係其實遠不止線性關係。線性回歸中的「線性」指的是係數的線性，而通過對特徵的非線性變換，以及廣義線性模型的推廣，輸出和特徵之間的函式關係可以是高度非線性的。

在特徵選擇中通常使用的準則是：資訊增益。

決策樹生成選擇好特徵後，就從根節點觸發，對節點計算所有特徵的資訊增益，選擇資訊增益最大的特徵作為節點特徵，根據該特徵的不同取值建立子節點；對每個子節點使用相同的方式生成新的子節點，直到資訊增益很小或者沒有特徵可以選擇為止。

id3 是最早提出的決策樹演算法，他就是利用資訊增益來選擇特徵的。

他是 id3 的改進版，他不是直接使用資訊增益，而是引入「資訊增益比」指標作為特徵的選擇依據。

這種演算法即可以用於分類，也可以用於回歸問題。cart 演算法使用了基尼係數取代了資訊熵模型。

優點

缺點

knn演算法的核心思想是如果乙個樣本在特徵空間中的k個最相鄰的樣本中的大多數屬於某乙個類別，則該樣本也屬於這個類別，並具有這個類別上樣本的特性。該方法在確定分類決策上只依據最鄰近的乙個或者幾個樣本的類別來決定待分樣本所屬的類別

優點缺點

隨機森林是由很多決策樹構成的，不同決策樹之間沒有關聯。

當我們進行分類任務時，新的輸入樣本進入，就讓森林中的每一棵決策樹分別進行判斷和分類，每個決策樹會得到乙個自己的分類結果，決策樹的分類結果中哪乙個分類最多，那麼隨機森林就會把這個結果當做最終的結果。

隨機森林的建立過程：

優點缺點

具體過程：

通過加法模型將基礎模型進行線性的組合。

每一輪訓練都提公升那些錯誤率小的基礎模型權重，同時減小錯誤率高的模型權重。

在每一輪改變訓練資料的權值或概率分布，通過提高那些在前一輪被弱分類器分錯樣例的權值，減小前一輪分對樣例的權值，來使得分類器對誤分的資料有較好的效果。

優點：

缺點：

基於殘差來做。