01機器學習演算法整體知識體系與學習路線攻略

入行機器學習有一年多了，做過大大小小的機器學習專案，參加資料競賽等實踐活動，從最初的懵懵懂懂到現在逐步的深入，也漸漸的有了很多的體會和理解，本篇文章主要來闡述機器學習的知識體系，以讓更多人明白機器學習應該怎樣學習、需要學習什麼？這些問題就是本篇文章的主要討論的內容，下面開始進行詳細介紹。

1.機器學習術語

2.常見演算法型別

3.評估方法和指標

4.效能優化和超引數調優

接下來正式介紹機器學習術語。機器學習術語作為作為最基本的常識問題，為了更好的學習和理解機器學習演算法，識記和理解相關術語是非常必要的。術語常見的有特徵、標籤、泛化能力、有監督與無監督學習、過擬合、欠擬合、魯棒性、分類、回歸、聚類與降維、整合學習等。

在這裡只介紹機器學習、特徵、標籤、有監督與無監督學習這幾個術語，其它術語在後面會一一介紹。

(1)機器學習

機器學習是指根據歷史資料，使用某種演算法或者規則從資料中尋找規律，以達到**未知的事情，這就是通俗的機器學習概念

(2)特徵

特徵是指與事物本身關係緊密的屬性，通俗來講特徵是一組自變數資料。

(3)標籤

標籤是指一組屬性特徵所對應的標誌值，通俗來講標籤是一組應變數資料。

【福利1：如何快速且深刻的區別和理解特徵與標籤的含義、區別？】

福利1：例如關係式：y=x1+x2+x3，y就是標籤，而x1、x2、x3則是特徵，下面將特徵與標籤以二維向量的形式展示，以加強理解：

x1（特徵） x2（特徵） x3（特徵） y（標籤）

樣本1 2 1 5 8

樣本2 5 6 3 14

… … … … …

(4)有監督與無監督學習

有監督學習是指演算法在訓練過程中，不僅資料特徵參與訓練，而且資料標籤也參與到訓練中以輔助特徵的訓練學習。

無監督學習是指演算法在訓練過程中，只有資料特徵參與訓練學習，而資料標籤是不確定或未知。

【福利2：如何快速理解與區別有監督、無監督學習呢？】

福利2：有監督學習=特徵+標籤；無監督學習=特徵。

機器學習常見的演算法型別有：分類、回歸、聚類、降維。

(1)分類

分類演算法是指針對標籤為離散型資料的一類問題進行演算法訓練，從而**並進行分類的過程。分類演算法常見的有：k近鄰演算法、樸素貝葉斯、邏輯回歸、支援向量機、決策樹（在這裡先不列出整合學習之類的分類演算法）。

(2)回歸

回歸演算法是指針對標籤為連續型資料的一類問題進行演算法訓練，從而**並進行擬合的過程。回歸演算法常見的有：線性回歸、嶺回歸、lasso回歸。

(3)聚類

聚類演算法是指利用事物特徵的相似度進行聚類劃分的過程。比較常見的聚類演算法是k-means。

(4)降維

降維是指將高維資料低維化的過程，旨在通過少量特徵的資訊來代替總體特徵的資訊。常見的是主成分分析（pca）。

效能評估是指演算法進行訓練學習之後，為了驗證演算法的可靠性，需要效能評估方法和指標來衡量演算法的優劣情況。

(1)評估方法

評估方法常見的是：holdout驗證、k-fold交叉驗證。

(2)評估指標

分類評估指標主要有：準確率、混淆矩陣、精確率、召回率、f1分數、auc值以及p-r曲線、roc曲線。

回歸評估指標主要有：絕對平均誤差、均方差、均方根誤差等。

效能優化是指對演算法模型進一步改進，以得到更為理想的**效果。效能優化常見的有梯度下降、超引數調優、整合學習演算法、正則項懲罰、有效特徵選擇等。

01機器學習演算法整體知識體系與學習路線攻略

機器學習知識體系

機械人知識體系

深度學習知識體系

01機器學習演算法整體知識體系與學習路線攻略

機器學習知識體系

機械人知識體系

深度學習知識體系

相關推薦