機器學習中的分類回歸標註

在資料探勘、人工智慧等領域中存在兩個：分類和回歸。單說分類很容易理解，但想到回歸就容易分不清晰，那麼這兩者到底有什麼區別和聯絡呢？下面簡單介紹下我的理解。

其實回歸問題和分類問題的本質一樣，都是針對乙個輸入做出乙個輸出**，其區別在於輸出變數的型別。

分類問題是指，給定乙個新的模式，根據訓練集推斷它所對應的類別（如：+1，-1），是一種定性輸出，也叫離散變數**；

許多的機器學習方法可以用來解決分類問題，包括kk

近鄰法、感知機、樸素貝葉斯法、決策樹、邏輯斯諦回歸模型、svm、adaboost、貝葉斯網路、神經網路等

回歸問題是指，給定乙個新的模式，根據訓練集推斷它所對應的輸出值（實數）是多少，是一種定量輸出，也叫連續變數**。

舉個例子：**明天的氣溫是多少度，這是乙個回歸任務；**明天是陰、晴還是雨，就是乙個分類任務

標註問題也是乙個監督學習問題。可以認為標記問題是分類問題的乙個推廣。

標註問題的輸入是乙個觀測序列，輸出的是乙個標記序列或狀態序列。也就是說，分類問題的輸出是乙個值，而標註問題輸出是乙個向量，向量的每個值屬於一種標記型別。

標註常用的機器學習方法有：隱性馬爾可夫模型、條件隨機場。

自然語言處理中的詞性標註（part of speech tagging）就是乙個典型的標註問題：給定乙個由單詞組成的句子，對這個句子中的每乙個單詞進行詞性標註，即對乙個單詞序列**其對應的詞性標記序列。

連續變數定性輸出稱為分類，或者說是離散變數回歸問題通常是用來乙個值如房價未來的天氣情況等等，例如乙個產品的實際為500元，通過回歸分析值為499元，我們認為這是乙個比較好的回歸分析。乙個比較常見的回歸演算法是線性回歸演算法 lr 另外，回歸分析用在神經網路上，其最上層是不需要加上s...

k近鄰從字面上理解，就是近朱者赤，近墨者黑。和誰離得近和誰歸為一類。1 演算法原理 1 計算測試資料與各個訓練資料之間的距離，方法閔可夫斯基距離 2 按照距離的遞增順序排序 3 選取距離最小的k個點 4 確定前k個點所在類別的出現頻率即為各個類別出現次數 5 返回前k個點所在類別的出現頻率，...

回歸，指研究一組隨機變數 y1 y2 yi 和另一組 x1，x2，xk 變數之間關係的統計分析方法，回歸通常是對真實關係的一種逼近一般決定係數r平方來評估模型的好壞拿最簡單的二分類，非此即彼，也就是給事物打上乙個標籤，是就是，不是就不是，沒有近似的概念正規方程損失函式協方差今天第一天啊，啥...

機器學習中的分類 回歸 標註