分類與回歸的區別

chevalier meirtz

的總結如下：

如何區分類與回歸，看的不是輸入，而是輸出的連續與否。例如：雲青青兮欲雨。這個「雲青青」就是輸入，「青青」就是雲的特徵，而雨就是我們的**輸出。可以看到，在這個問題中，我們想得到的輸出是天氣，他是晴朗、陰天等天氣狀況的子集，是不連續的，所以這就是乙個典型的分類問題。

有乙個新手特別容易犯的錯誤就是，認為logistic回歸屬於回歸。但是，

logistic回歸不是回歸是分類

分類問題的目的在於尋找決策邊界。舉個例子，小時候再看電視劇集的時候，總喜歡問家長：「這個人是好人還是壞人啊？」而家長心有就有乙個評判的標準，好人壞人界限分明，非黑即白；而這個界限，就是決策邊界。

其他的回答如下：

分類和回歸的區別在於輸出變數的型別。

定量輸出稱為回歸，或者說是連續變數**；

定性輸出稱為分類，或者說是離散變數**。

主要是loss function不同吧，分類的損失函式一般用交叉熵這種，而回歸的損失函式一般用類似平方誤差這種

鐵哥：在說分類與回歸的區別之前，先說下分類與回歸的相同之處：都屬於「監督學習（supervised learning）」，從數學的角度來說，監督學習是乙個對映，它存在輸入空間和輸出空間，分別對應機器學習裡常說的樣本和標記。

說到這來，就可以開始說分類和回歸的區別了：如果標記是離散值，則你面對的是乙個分類問題，而如果標記是連續值，則你面對的是乙個回歸問題。

這就是分類問題和回歸問題的區別所在，僅僅通過判斷輸出值是離散的還是連續的就可以確定；

確切地說，分類問題與回歸問題是監督學習問題，區別在於學習函式的**輸出是類別還是值。但是分類基本上都是用「回歸模型」解決的，只是假設的模型不同(損失函式不一樣)，因為不能把分類標籤當回歸問題的輸出來解決。比如，最小二乘擬合曲線與最小二乘二分類，單層logistc神經網擬合曲線與logistc回歸二分類，它們在設定上就是一些小trick。

------------

周志華老師所著的《機器學習》一書中有記載:

若我們欲**的是離散值，例如"好瓜""壞瓜"，此類學習任務稱為 "分類"。

若欲**的是連續值，例如西瓜的成熟度0.95 ,0.37,此類學習任務稱為"回歸"。

-------------

：根本不是這樣子的啊！

這兩者的區別完全不在於連續與否啊，而在於損失函式的形式不同啊！（後文詳述）

-------------分割線----------------

前面的很多答案用到了不少生動的例子和理論，從多個角度深刻詮釋了什麼是分類問題，什麼是回歸問題，以及如何實現回歸與分類任務，但大多數的回答仍沒有提及這兩者間的本質區別。

個人認為：

「回歸與分類的根本區別在於輸出空間是否為乙個度量空間。」

我們不難看到，回歸問題與分類問題本質上都是要建立對映關係：

而兩者的區別則在於：

而非很多回答所提到的「連續即回歸，離散即分類」。

事實上，在實際操作中，我們確實常常將回歸問題和分類問題互相轉化（分類問題回歸化：邏輯回歸；回歸問題分類化：年齡**問題——>年齡段分類問題），但這都是為了處理實際問題時的方便之舉，背後損失的是數學上的嚴謹性。

1、回歸問題的應用場景

回歸問題通常是用來**乙個值，如**房價、未來的天氣情況等等，例如乙個產品的實際**為500元，通過回歸分析**值為499元，我們認為這是乙個比較好的回歸分析。乙個比較常見的回歸演算法是線性回歸演算法（lr）。另外，回歸分析用在神經網路上，其最上層是不需要加上softmax函式的，而是直接對前一層累加即可。回歸是對真實值的一種逼近**。

2、分類問題的應用場景

分類問題是用於將事物打上乙個標籤，通常結果為離散值。例如判斷一幅上的動物是乙隻貓還是乙隻狗，分類通常是建立在回歸之上，分類的最後一層通常要使用softmax函式進行判斷其所屬類別。分類並沒有逼近的概念，最終正確結果只有乙個，錯誤的就是錯誤的，不會有相近的概念。最常見的分類方法是邏輯回歸，或者叫邏輯分類。

3、如何選擇模型

下面一幅圖可以告訴實際應用中我們如何選擇合適的模型。

分類與回歸的區別

分類與回歸的區別

回歸和分類的區別

分類與回歸

相關推薦