機器學習常見基本概念筆記

2021-10-11 02:58:54 字數 1642 閱讀 1668

監督學習和非監督學習:

有監督學習的方法就是識別事物,識別的結果表現在給待識別資料加上了標籤。因此訓練樣本集必須由帶標籤的樣本組成。比如分類和回歸。

而無監督學習方法只有要分析的資料集的本身,預先沒有什麼標籤。如果發現資料集呈現某種聚集性,則可按自然的聚集性分類,但不予以某種預先分類標籤對上號為目的。如聚類。

驗證集主要作用是來驗證是否過擬合、以及用來調節訓練引數等。

分類的損失函式:

是用來估量模型的**值y^與真實值 y 的不一致程度。若損失函式很小,表明機器學習模型與資料真實分布很接近,則模型效能良好;若損失函式很大,表明機器學習模型與資料真實分布差別較大,則模型效能不佳。

損失函式判斷

訓練損失函式越來越低可能會導致過擬合(學得太好了),是否過擬合這時要看測試集的損失函式是否在回增(新資料測試模型是否泛化能力強)。

超引數:

在機器學習的上下文中,超引數是在開始學習過程之前設定值的引數,而不是通過訓練得到的參 數資料。通常情況下,需要對超引數進行優化,給學習機選擇一組最優超引數,以提高學習的效能和 效果。超引數也是乙個引數,是乙個未知變數,但是它不同於訓練過程中的引數,它是可以對訓練得 到的引數有影響的引數,需要訓練者人工輸入,並作出調整,以便優化訓練模型的效果。

1.定義關於模型的更高層次的概念,如複雜性或學習能力。

2.不能直接從標準模型培訓過程中的資料中學習,需要預先定義。

3.可以通過設定不同的值,訓練不同的模型和選擇更好的測試值來決定。

比如:模型的學習率,深度神經網路隱藏層數。

超引數和引數的區別:

最大的區別就是是否通過資料來進行調整,模型引數通常是有資料來驅動調整,超引數則不需要資料來驅動,而是在訓練前或者訓練中人為地進行調整地超引數,比如卷積核的數量,卷積核尺寸這些就是超引數。

預訓練模型:

預訓練模型是乙個已經訓練好的儲存下來的網路,該網路之前在乙個大型的資料集上進行了訓練。

線性回歸沒有區域性最優。

正則化(regularization):

給損失函式加乙個lambda*權重的平方,權重越小,那麼loss值對x的變化不敏感,可以減少噪音對loss值的影響,使函式變得平滑,但是太平滑也不好(理想狀態是水平線,即x對loss毫無影響)。並且做regularization的時候不需要考慮bias,因為對x無影響。

機器學習線性回歸問題誤差(error)主要有兩個:

1.偏差(bias):

偏差是指樣本擬合出的模型的輸出結果的期望與樣本真實結果的差距。簡單得講就是擬合得好不好,如果高bias的話離準心遠,需要換過乙個模型,複雜化模型,增加模型引數。但是太好的話就容易過擬合。低bias對應就是點都打在靶心附近,所以瞄的是準的,但手不一定穩。

2.方差(variance):

方差是指從樣本上訓練出來的模型在測試集的表現。low 方差對應就是點都打的很集中,但不一定是靶心附近,手很穩,但是瞄的不准。此時就要簡化模型,減少模型引數,但是容易欠擬合。

遷移學習

遷移學習是一種機器學習的方法,指的是乙個預訓練模型被重新用在另乙個任務中。目標就是將某個領域或任務上學習到的知識或模式應用到不同但相關的領域或問題中。

極大似然估計

就是用來做引數估計的,讓估計的引數盡可能接近總體分布引數,概率最大點就是最像點。

kl散度

是衡量兩種概率分布的相似程度,其越小,表示兩種概率分布越接近。

機器學習筆記 基本概念

首先我們以人來舉例 你在買蘋果的時候,看到乙個蘋果,它黃裡透紅 果皮粗糙 硬度稍軟,我們就可以判斷它比較甜,這是因為我們已經有了類似的經驗,通過對經驗的應用就可以做出相應的判斷。這種對經驗的利用是我們自發形成的,但是機器是否能做到呢。機器學習就是這樣一門學科,它致力於研究如何通過計算的手段,利用經驗...

ML筆記 機器學習基本概念

監督學習 以已知結果的資料集作為訓練樣本。基本流程 輸入資料 特徵工程 模型訓練 模型部署 模型應用。監督學習的目的在於學習乙個由輸入到輸出的對映,這一對映由模型來表示,也就是說學習的目的就在於找到最好的這樣的模型。模型屬於由輸入空間到輸出空間的對映集合,這個集合就是假設空間。假設空間的確定意味著學...

機器學習基本概念

什麼是學習?如果乙個系統能夠通過執行某個過程改進它的效能,這就是學習。赫爾伯特 西蒙 什麼是機器學習?對於某給定的任務 t 在合理的效能度量方案 p的前提下,電腦程式可以通過自主學習任務 t 的經驗 e 隨著提供合適,優質,大量的經驗 e 該程式對於任務 t的效能逐步提高。任務,經驗,效能 什麼是統...