機器學習總結(lecture 1)機器學習基礎知識

2021-08-15 16:37:34 字數 2557 閱讀 2981

參考:

機器學習:從經驗e學習一些分類任務t和效能測量p,它在任務t中的效能(由p測量)隨著經驗e提公升。

(1)監督學習

資料集是有標籤的,就是說對於給出的樣本我們是知道答案的,我們大部分學到的模型都是屬於這一類的,包括線性分類器、支援向量機等等;

(2)無監督學習

跟監督學習相反,資料集是完全沒有標籤的,主要的依據是相似的樣本在資料空間中一般距離是相近的,這樣就能通過距離的計算把樣本分類,這樣就完全不需要label,比如著名的k-means演算法就是無監督學習應用最廣泛的演算法;

(3)半監督學習

半監督學習一般針對的問題是資料量超級大但是有標籤資料很少或者說標籤資料的獲取很難很貴的情況,訓練的時候有一部分是有標籤的而有一部分是沒有的;

(4)強化學習

一直激勵學習的方式,通過激勵函式來讓模型不斷根據遇到的情況做出調整;

監督學習:分類、回歸

1、回歸問題 regression(輸入、輸出:連續值)

例如:已知一組資料,包含房屋的面積(x)和對應的**(y),**當房屋面積為特定值時(x=x0)對應的**為多少。

2、分類問題 classification(輸入、輸出:離散值)

例如:已知一組資料,包含腫瘤的大小(size)和對應的性質(良性/惡性)(0/1),當給出腫瘤的大小時,判斷其為良性還是惡性。

感知機是最簡單的機器學習演算法,一般作為機器學習的入門級演算法,也很好理解,但是麻雀雖小,五臟俱全,機器學習大致的思想和過程都涉及到了。

感知機可以認為是線性二元分類器,我們有一些特徵資料,根據這些特徵資料我們線性回歸出乙個值,如果超過了某個閾值,我們就說yes,否則no.

乙個簡單的現實例子就是信用卡的發放問題,銀行得到使用者的一些個人資訊,比如年齡,收入,信用記錄等。

針對這些資訊我們賦予一些權重,這樣我們就能夠得到乙個具體的數值,以此來判斷是否發信用卡。

後續會介紹詳細的過程

一般會把資料集分成兩部分:一部分作為訓練集,用來訓練模型,一部分用來做測試,當作我們的未知資料。

測試集錯誤率作為我們的評價標準,因為我們最終應用機器學習模型時,面臨的是未知的資料。

如果用訓練集錯誤率來作為評判標準,可能引起的問題是過擬合,也就是我們訓練效果很好而實際**情況很糟糕,這是我們不想看到的。

造成過擬合的原因主要是下面四個方面:

解決過擬合的方法:

1)從簡單的模型開始嘗試;

2)資料預處理,資料清洗;

3)額外的資料;

4)正則化,regularization;

5)驗證,validation;

正則化相當於給訓練誤差加了乙個懲罰項,以防止過擬合的發生。

用的比較多的正則項是l1和l2

還有dropout、早停

正則化通過犧牲一定的訓練集準確率而增加一定的泛化能力

正則化引數λ的影:

驗證的目的是選擇最優的模型,而依據就是泛化誤差,因為我們最終把模型應用的是未知資料。

目前用的最廣泛的是v-fold cross validation,把資料集分成v份,每次拿出v-1作為訓練集,而剩下的乙份作為驗證,通過v次的訓練,把最後訓練錯誤的平均值作為該模型的評價,然後選出最佳。

假設函式 hθ

(x) hθ(

x)代價函式j(

θ0,θ

1)j (θ

0,θ1

)梯度下降要同步更新

梯度下降的三種方式:

批梯度下降

隨機梯度下降

小批量梯度下降

這個α如果過小,則收斂很慢;

如果過大,則可能導致不收斂。

1.特徵縮放

2.均值歸一化

均值歸一化不需要太精確,其目的只是為了讓梯度下降演算法收斂速度更快。

總體來說:正規方程計算巧妙,但不一定有效。梯度下降法速度慢,但是穩定可靠。

通常,n在10000以下時,正規方程法會是乙個很好的選擇,而當n>10000時,多考慮用梯度下降法。

Lecture 1 引言 計算

博主不定期更新 保研 推免 c c 5g移動通訊 linux 生活隨筆 系列文章,喜歡的朋友 點讚 關注 支援一下吧!程式設計入門 c語言以及c語言程式設計高階。語言本無程式設計 解釋之分,常見執行方式而已 c語言 編譯 確定的運算效能 python 解釋 特殊的計算能力 目前已無本質區別 指標是c...

機器學習 支援向量機 1

1.簡單問題描述 支援向量機解決的問題就是找到乙個最優的超平面將訓練樣本分開!最優的就是這個超平面距離每類訓練樣本距離是等距的。理由 魯棒性 最好,泛化能力最強。超平面 簡單來說超平面就是平面中的直線在高維空間上的推廣,總之在n維空間中的超平面是n 1維的。2.間隔和支援向量 超平面方程 其中,w ...

機器學習 十六 機器學習演算法總結(1)

監督學習 knn演算法計算測試樣本與訓練集的各樣本的距離,按從小到大取前k個距離排序,然後選擇這k個最相似資料中出現次數最多的分類作為新資料的分類。樸素貝葉斯實現的是概率量化計算的模型,它的解釋是通過對樣本的統計,然後算出某件事a發生的概率和某件事b發生的概率之間的量化關係。決策樹實現的是通過選擇合...