入門機器學習，我們都要學什麼？

作為乙個初學機器學習的人，確定學習目標很重要。這篇文章列舉出機器學習中基礎的常見演算法。

機器學習的演算法分為監督學習演算法和非監督學習演算法。是否有監督，就看輸入資料是否有標籤。輸入資料有標籤，則為有監督學習，沒標籤則為無監督學習。

一、監督學習演算法

1.線性回歸演算法

線性回歸演算法通常用來構建乙個**模型。例如，根據房子年限、房屋面積這兩個特性，來**房屋**，就可以構建乙個線性回歸演算法。利用已有的資料訓練模型，再用訓練好的模型**新的房價。

如果有乙個輸入x，對應乙個輸出y，就可以構建乙個一維現行回歸模型，通常表現為一條直線或取現，當給定乙個x值時，對應可以求出y值。當有多個特徵共同影響y值時，就可以構建乙個多元的線性回歸模型。

2.邏輯回歸演算法

邏輯回歸演算法用來進行對資料的分類。它和線性回歸演算法類似，不同之處在於，輸出值y是給定的幾類。最常見的是分成兩類，如好和壞。使用邏輯回歸演算法，可以根據輸入資料的特徵，判斷該條資料的輸出是哪一類的。

3.神經網路演算法

神經網路演算法也用於資料的**。神經網路演算法通過模擬人類大腦的工作模式來建立模型。前期通過大量的已有資料，進行神經網路模型的訓練（給定輸入的特徵x1、x2、x3......，輸出y）。接下來，使用訓練好的神經網路**未知的資料。

4.支撐向量機

支撐向量機可以用來分類和回歸分析，其基本模型定義為特徵空間上的間隔最大的線性分類器，即支援向量機的學習策略便是間隔最大化。

二、非監督學習

1.kmeans聚類

聚類是一種非監督學習，它和分類的不同之處在於，分類是有標籤的，而聚類是無標籤的。分類的結果是知道哪個好哪個壞，而聚類是根據特性，將相似的事物聚集到一起，不考慮它們的好壞。

kmeas演算法是聚類演算法中的一種，可以根據輸入的特性，將一些資料聚集為成任意多個類別。kmeas演算法使用距離的遠近來聚集一類資料。

2.降維

有的時候，一條資料的輸入特性可能有很多。比如，在**房價的問題上，可能會輸入房間面積、年限、地理位置相關資訊等近百個屬性。使用這麼多屬性進行分析，會為分析過程帶來麻煩。降維，就是將這些d個維度的輸入屬性，縮小成d個維度的輸入屬性。它將一些輸入特性合併或進行某些操作，來減少變數的數量。

3.異常檢測

異常檢測用來判斷某乙個資料，其輸入特性是否異常。例如，有多個屬性來描述乙個飛機的發動機，在大量的資料輸入中，通過異常檢測，來發現哪條資料記錄存在異常

在下一階段的機器學習學習中，將對上面提到的基本演算法進行逐一研究。歡迎同樣是初學機器學習的小夥伴互相交流～