01機器學習演算法整體知識體系與學習路線攻略

2021-10-02 16:46:38 字數 1834 閱讀 7581

入行機器學習有一年多了,做過大大小小的機器學習專案,參加資料競賽等實踐活動,從最初的懵懵懂懂到現在逐步的深入,也漸漸的有了很多的體會和理解,本篇文章主要來闡述機器學習的知識體系,以讓更多人明白機器學習應該怎樣學習、需要學習什麼?這些問題就是本篇文章的主要討論的內容,下面開始進行詳細介紹。

1.機器學習術語

2.常見演算法型別

3.評估方法和指標

4.效能優化和超引數調優

接下來正式介紹機器學習術語。機器學習術語作為作為最基本的常識問題,為了更好的學習和理解機器學習演算法,識記和理解相關術語是非常必要的。術語常見的有特徵、標籤、泛化能力、有監督與無監督學習、過擬合、欠擬合、魯棒性、分類、回歸、聚類與降維、整合學習等。

在這裡只介紹機器學習、特徵、標籤、有監督與無監督學習這幾個術語,其它術語在後面會一一介紹。

(1)機器學習

機器學習是指根據歷史資料,使用某種演算法或者規則從資料中尋找規律,以達到**未知的事情,這就是通俗的機器學習概念

(2)特徵

特徵是指與事物本身關係緊密的屬性,通俗來講特徵是一組自變數資料。

(3)標籤

標籤是指一組屬性特徵所對應的標誌值,通俗來講標籤是一組應變數資料。

【福利1:如何快速且深刻的區別和理解特徵與標籤的含義、區別?】

福利1:例如關係式:y=x1+x2+x3,y就是標籤,而x1、x2、x3則是特徵,下面將特徵與標籤以二維向量的形式展示,以加強理解:

x1(特徵) x2(特徵) x3(特徵) y(標籤)

樣本1 2 1 5 8

樣本2 5 6 3 14

… … … … …

(4)有監督與無監督學習

有監督學習是指演算法在訓練過程中,不僅資料特徵參與訓練,而且資料標籤也參與到訓練中以輔助特徵的訓練學習。

無監督學習是指演算法在訓練過程中,只有資料特徵參與訓練學習,而資料標籤是不確定或未知。

【福利2:如何快速理解與區別有監督、無監督學習呢?】

福利2:有監督學習=特徵+標籤;無監督學習=特徵。

機器學習常見的演算法型別有:分類、回歸、聚類、降維。

(1)分類

分類演算法是指針對標籤為離散型資料的一類問題進行演算法訓練,從而**並進行分類的過程。分類演算法常見的有:k近鄰演算法、樸素貝葉斯、邏輯回歸、支援向量機、決策樹(在這裡先不列出整合學習之類的分類演算法)。

(2)回歸

回歸演算法是指針對標籤為連續型資料的一類問題進行演算法訓練,從而**並進行擬合的過程。回歸演算法常見的有:線性回歸、嶺回歸、lasso回歸。

(3)聚類

聚類演算法是指利用事物特徵的相似度進行聚類劃分的過程。比較常見的聚類演算法是k-means。

(4)降維

降維是指將高維資料低維化的過程,旨在通過少量特徵的資訊來代替總體特徵的資訊。常見的是主成分分析(pca)。

效能評估是指演算法進行訓練學習之後,為了驗證演算法的可靠性,需要效能評估方法和指標來衡量演算法的優劣情況。

(1)評估方法

評估方法常見的是:holdout驗證、k-fold交叉驗證。

(2)評估指標

分類評估指標主要有:準確率、混淆矩陣、精確率、召回率、f1分數、auc值以及p-r曲線、roc曲線。

回歸評估指標主要有:絕對平均誤差、均方差、均方根誤差等。

效能優化是指對演算法模型進一步改進,以得到更為理想的**效果。效能優化常見的有梯度下降、超引數調優、整合學習演算法、正則項懲罰、有效特徵選擇等。

機器學習知識體系

機器學習 machine learning,ml 是一門多領域交叉學科,涉及概率論 統計學 逼近論 凸分析 演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。機器學習包含多交叉學科,同時也在很多方面得到應用,如...

機械人知識體系

1 機械人運動學 introduction to robotics mechanics and control 3rd edition robotics modelling,planning and control springer verlag london 2009 springer handb...

深度學習知識體系

廣義網路結構 前饋神經網路 卷積神經網路 迴圈神經網路lstm gru 雙向迴圈神經網路bi lstm bi gru 了解 網路中的特殊單元 bn 為什麼可以加快學習 用1x1的感受域來減少變數數 為什麼可以加快學習 用兩2層3x3的感受域的卷積,代替5x5感受域的卷積 為什麼可以優化網路 用1x3...