機器學習基礎之一基本概念

一、機器學習方法分類

監督學習：訓練樣本帶標記（分類、回歸）

無監督學習：訓練樣本無標記（聚類、異常檢測）

半監督學習：訓練樣本帶少量標記

強化學習：通過狀態空間大量試錯學習得最佳決策（決策）

深度學習：以上ml方法和深度神經網路的結合（分類、聚類、決策）

二、機器學習流程

1. 實際問題抽象為數學問題

理解實際問題是機器學習的第一步，特徵工程和模型訓練都是非常費時的，深入理解問題，能避免走很多彎路。理解問題，包括明確可以獲得的資料，機器學習的目標，是分類、回歸還是聚類。如果都不是，將它們轉變為機器學習問題。

2. 獲取資料

獲取資料報括獲取原始資料以及從原始資料中從原始資料中提取資料。「資料決定機器學習結果的上限，而演算法只是盡可能的逼近這個上限」，對於分類問題，資料偏斜不能過於嚴重，不同類別的資料數量不要有數個數量級的差距。不僅如此還要對評估資料的量級，樣本數量、特徵數量，估算訓練模型對記憶體的消耗。如果資料量太大可以考慮減少訓練樣本、降維或者使用分布式機器學習系統。

3. 特徵工程

特徵工程包括從原始資料中特徵構建、特徵提取、特徵選擇，非常重要，特徵工程做的好能發揮原始資料的最大效力，往往能夠使得演算法的效果和效能得到顯著的提公升，有時能使簡單的模型的效果比複雜的模型效果好。資料探勘的60%-80%時間花在特徵工程上面，是機器學習非常基礎而又必備的步驟。資料預處理、篩選顯著特徵、摒棄非顯著特徵等等都非常重要。

4. 模型訓練、診斷調優

此過程根據對演算法的理解調節引數，使模型達到最優。當然，能自己實現演算法的是最牛的。模型診斷中至關重要的是判斷過擬合、欠擬合，常見的方法是繪製學習曲線，交叉驗證。通過增加訓練的資料量、降低模型複雜度來降低過擬合的風險，提高特徵的數量和質量、增加模型複雜來防止欠擬合。診斷後的模型需要進行進一步調優，調優後的新模型需要重新診斷，這是乙個反覆迭代不斷逼近的過程，需要不斷的嘗試，進而達到最優的狀態。

5. 模型驗證、誤差分析

模型驗證和誤差分析也是機器學習中非常重要的一步，通過測試資料，驗證模型的有效性，觀察誤差樣本，分析誤差產生的原因，往往能使得我們找到提公升演算法效能的突破點。誤差分析主要是分析出誤差**與資料、特徵、演算法關係。

6 . 模型融合

成熟的機器演算法也就那麼些，提公升演算法的準確度主要方法是模型的前端（特徵工程、清洗、預處理、取樣）和後端的模型融合。這篇部落格中提到了模型融合的方法，主要包括統一融合，線性融合和堆融合。

7. 上線執行

fqa：為什麼流程中有多個學習器並行的學習？

答：並不是說單個學習器是不行的，而是在精確度要求極高的場合，模型融合是提高準確度的重要方式，此外多源樣本，可能也難以使用乙個學習器訓練模型；

reference：

三、模型評估與選擇

1、泛化能力（模型對未知資料的**能力）

2、效能度量指標

說明：1、將查準率和查全率相等的點成為平衡點(bep)，平衡點大的效能較好；

2、在沒有交叉情況下，被「包住」的曲線對應的學習器效能弱於其外部曲線學習器；

平衡點（break

event point

）的定義還是過於簡化，更常用的是f1度量：

查準率和查全率是連個矛盾的指標，f1綜合考慮了p和r的結果，當f1較高時則說明實驗方法比較理想，又時候我們對查準率和查全率有不同的偏好，例如推薦系統希望盡可能少的打擾使用者，推薦的內容使使用者感興趣的，此時我們更關注查準率，在逃犯行檢索中，更希望盡可能少的漏掉逃犯，此時查全率更重要，f1的一邊定義fβ

0 < β < 1查準率喲更發影響，β > 1 查全率有更大影響；

如有150個樣本資料，這些資料分成3類，每類50個。分類結束後得到的混淆矩陣為：

**類

1類2類

3實際類1

4352類

22453

類301

49

每一行之和為50，表示50個樣本，第一行說明類1的50個樣本有43個分類正確，5個錯分為類2，2個錯分為類3；混淆矩陣可以很直觀的發現問題在**；

舉例，計算結果：

對角線虛線對應隨機猜測某型

偏差和方差兩者是有衝突的，稱之為變差方差窘境（bias-variance dilemma），很難同時做到偏差和方差都很低，只能從偏差、方差和模型複雜度中找到乙個平衡點。

機器學習基礎之一基本概念

機器學習基礎 1 基本概念

機器學習基本概念

機器學習基本概念

機器學習基礎之一 基本概念

機器學習基礎 1 基本概念

機器學習基本概念

機器學習基本概念

相關推薦

機器學習基礎之一基本概念