機器學習導論(三)

2021-09-28 11:23:36 字數 2112 閱讀 1059

監督學習

監督(supervised)是指訓練資料集中的每個樣本均有乙個已知的輸出項(類標label)

輸出變數為連續變數的**問題稱為回歸問題,回歸演算法有

簡單線性回歸,多元線性回歸,lasson回歸,ridge回歸,elastictnet

輸出變數為有限個離散變數的**問題稱為分類問題,分類演算法有

決策樹,knn,svm,perception&neunetwork,bayes,logisticregression

無監督學習

人們給機器一大堆沒有分類標記的資料,讓機器可以對資料分類、檢測異常等

1、聚類(kmeans)

2、降維(pca,lda)

半監督學習

一部分樣本有標籤,一部分樣本無標籤,處理方法:聚類假設

聚類假設:將有標記的樣本和無標記的樣本混合在一起,通過特徵之間的相似性將樣本分為若干組,使得組內的相似性較大,組間的相異性較大,將樣本點都進行分組,組內根據少數服從多數的原則對沒有標記的樣本新增標記,至此,所有未標記的資料都可以分配標記。

主動學習

純半監督學習/直推學習

強化學習

是機器學習的乙個重要分支,主要用來解決連續決策問題

遷移學習

小資料問題

個性化問題

模型+策略+演算法

模型模型通常分為決策函式(非概率模型)或條件概率分布(概率模型)

策略評估模型的好壞,使用損失函式(誤差函式、目標函式)度量

演算法機器學習的演算法就是求解最優化問題的演算法

首先明確:

1、該問題是否為機器學習問題

2、該問題是機器學習問題的哪方面問題

當拿到資料後從下面兩個角度思考:

1、資料角度:根據具備的資料看能夠做監督學習or無監督學習or半監督學習

2、業務角度:根據業務部門指定的業務方向,整理資料,建模

特徵工程:

1、對特徵處理

2、對資料處理

資料+選擇的演算法==》模型

通過測試集測試模型,給定最終模型

有新資料,通過模型給出測試結果

模型不但在訓練集上表現效果很好,對於新資料的適應能力也很好

泛化能力的表現:過擬合和欠擬合

欠擬合模型在訓練集和測試集的效果都很差

出現原因:模型過於簡單

出現場景:模型訓練初期

解決方法:

1、增加模型的多項式的項

2、增加模型多項式的次數

3、減少正則罰項

過擬合模型在訓練集效果很好,但是測試集的效果很差

出現原因:模型過於複雜,資料不純、訓練資料量太少

出現場景:模型訓練中後期

解決方法:

1、針對過於複雜的特性,增加正則罰項

2、重新清洗資料

3、增加訓練資料量

4、對樣本抽樣或特徵抽樣

5、dropout–隨即丟棄一些點(深度學習)

奧卡姆剃刀原則

如果具有相同泛化誤差的模型,選擇較為簡單的模型(防止過擬合)

正則化正則項,目的是為了降低模型複雜度。

l1正則項: +lambda*|w|

l2正則項: +lambda*|w|**2

交叉驗證

1、簡單交叉驗證

2、k則交叉驗證,將資料集平均隨機切分為k等分,將其中乙份資料作為測試集,其餘作為訓練集,訓練k個魔心,得到平均準確率。

3、留一驗證,特殊的k則交叉驗證

機器學習導論

策略結構風險 正則化項 交叉驗證 混淆矩陣 roc曲線 回歸問題與分類問題本質上都是要建立對映關係 0 1損失 平方損失 絕對損失 對數損失 模型f x 關於訓練資料集的平均損失記為經驗損失 remp 期望風險remp是模型關於聯合分布的期望損失,經驗風險remp是模型關於訓練集的平均損失。根據大數...

機器學習導論二

監督學習 訓練資料集每個樣本均有個已知的輸出項。分類演算法 決策樹演算法 knn貝葉斯演算法 svm演算法 lr演算法 回歸 線性回歸 lasso回歸 ridge回歸 無監督學習 非監督學習 降維 pca lda 半監督學習 了解 一部分有類別標籤,一部分沒有類別標籤。強化學習 了解 遷移學習 了解...

機器學習導論(一)

改變了思維方式 資料重要性 資料資源 資料資產 增值 方 資料分析 統計學 抽樣 資料科學 大資料 計算智慧型 複雜演算法 決策方面 基於目標決策 基於資料決策 業務方面 基於業務的資料化 基於資料的業務化 產業競合 以戰略為中心 以資料為中心 資料量大 tb pb zb hdfs分布式檔案系統 資...