機器學習 《李航統計學方法》二

2021-10-08 09:27:22 字數 3018 閱讀 4842

感知器

他是二類分類的線性分類模型,輸出的是例項的特徵向量,而輸出的是例項的類別。

資料集是線性可分資料集和線性不可分的區別就是:

是否可以將資料集的正例項點和負例項點完全正確地劃分到超平面的兩側,也就是對所有y=1的例項都有wx+b>0,對y=-1的例項,都有wx+b<0

感知機學習演算法在採用不同的初值或者選取不同的誤分類點的時候,解可以不同。

並且感知機學習演算法是基於隨機梯度下降法的對損失函式的最優化演算法,有原始形式和對偶形式,演算法簡單易實現,在原始形式中,首先任意選取乙個超平面,然後用梯度下降法不斷極小化目標函式,在這個過程中一次隨機選取乙個誤分類點使其梯度下降。

k近鄰法

是一種基本分類與回歸方法,輸入是例項的特徵向量,輸出是例項的類別。有三個基本要素:k值的選擇,距離度量和分類決策規則。

並且在k=1的情形之下,稱為最近鄰演算法。

k近鄰模型有三個基本要素:距離度量,k值的選擇和分類決策規則決定。

距離度量:

特徵空間中兩個例項點的距離是兩個例項點相似程度的反應

k值的選擇:

如果選較小的k的話,相當於用較小的鄰域中的訓練例項進行**,「學習」的相似誤差就會減少,但「學習」的估計誤差就會增大。

也就是k值減少的話,會讓整體模型變複雜,容易發生過擬合

如果選較大的k值的話,就是用較大領域中的訓練例項進行**,優點就是減少學習的估計誤差,相對應的就會增大學習的近似誤差,也就是k值增大的話,整體的模型會變簡單。

所以一般是採取乙個較小的值。

分類決策規則:

是多數表決的,也就是輸入例項的k個鄰近的訓練例項中的多數類決定輸入例項的類。根據公式可知,多數表決規則等價於經驗風險最小化。

k近鄰法的實現:kd樹

一般來說,進行搜尋的方法就是使用線性掃瞄,但這個方法在訓練集很大的情況之下,是不可行的,所以為了提高效率,引進了kd樹方法。

構造kd樹的方法:

構造kd樹,使根節點對應於k維空間中包含所有例項點的超矩形區域,再使用遞迴方法,不斷對k維空間進行切分,生成子結點,並在這個結點上選擇乙個座標值和座標軸的乙個切分點,這樣就將例項分成兩個子區域了,這個過程直到子區域內沒有例項才終止。

搜尋kd樹:

給定乙個目標,搜尋其最近鄰,首先找到包含目標點的葉結點,然後從該葉結點出發,依次回退到父結點,不斷查詢與目標點最鄰近的結點,確定不可能存在更近的結點時終止,這樣搜尋就被限制在空間的區域性區域上,效率大為提高。

樸素貝葉斯法

是基於貝葉斯定理和特徵條件假設的分類方法。

它的基本方法就是:通過訓練資料集學習聯合概率分布,具體是學習先驗概率分布以及條件概率分布。

決策樹

它是由結點和有向邊組成的,結點有兩種型別,內部結點和葉結點,內部結點表示乙個特徵或屬性,葉結點表示乙個類。

決策樹主要優點就是模型有可讀性,分類速度快,根據損失函式最小化的原則建立決策樹模型,主要有以下三個步驟:特徵選擇,決策樹的生成和決策樹的修剪。

決策樹學習的本質

是從訓練資料集中歸納出一組分類規則,與訓練資料集不相矛盾的決策樹可能有很多,也可能乙個也沒有。

特徵選擇:

在於選擇對訓練資料具有分類能力的特徵,其中有乙個能表示得知特徵x的資訊而使得類y的資訊不確定性減少的程度的資訊增益。

所以對於資訊增益準側的特徵選擇方法是:對訓練資料集d,計算其每個特徵的資訊增益,並比較它們的大小,選擇資訊增益最大的特徵。

決策樹的生成

有兩種生成演算法,分別是id3演算法和c4.5.

id3演算法:

核心是在決策樹各個結點上應用資訊增益準則選擇特徵,遞迴構建決策樹,具體方法就是從根結點開始,對結點計算所有可能的特徵的資訊增益,選擇資訊增益最大的特徵作為結點的特徵,由該特徵的不同取值建立子結點,再對子結點遞迴呼叫以上方法,構建決策樹。

c4.5演算法:

輸入訓練資料集d,特徵集a,閾值&,輸出的是決策樹。有以下幾種判別型別:

1.如果d中所有例項都同屬於同一類,那就置t為單結點樹,並將c作為結點的類並返回t

2.如果a是空的,那麼置t為單結點樹,並將d中例項數最大的類c作為該結點的類並返回t

3.除卻兩種方法,就是計算a中各個特徵對d的訊息增益比,選擇增益比最大的特徵

4. 如果a8的纖細增益比小於閾值,那麼置t為單結點樹,並將d中例項樹最大的類作為該節點的類,返回t

5. 再次是對每乙個可能性,分割開,並將例項數最大的類作為標記,構建子結點,由結點及其子節點構成樹t

6. 對結點遞迴呼叫以上步驟得到樹

決策樹的剪紙:

再決策樹學習中將已生成的樹進行簡化的過程稱為剪枝。具體就是從已生成的樹上裁掉一些子樹或葉結點,並將其根結點或父結點作為新的葉結點,從而簡化分類樹模型。

一種簡單的決策樹學習的演算法:

通過極小化決策樹整體的損失函式或代價函式來實現。

先計算每個結點的經驗熵 遞迴地從樹的葉結點向上回縮, 再返回前面的操作,直到不能繼續為止,就可以得到損失函式最小的子樹了。

cart演算法是分類與回歸樹演算法的縮寫,同樣由特徵選擇,樹的生成以及剪紙組成,也可用作分類,也可用作回歸。

它是在給定輸入隨機變數x條件下,輸出隨機變數y的條件概率分布的學習方法。由以下兩步組成:

1.決策樹生成:基於訓練資料集生成決策樹,需要它盡可能大

2.決策樹剪枝:用驗證資料集對已生成的樹進行剪枝並選擇最優子樹,這時用損失函式最小作為剪枝的標準。

機器學習 李航《統計學習方法》 筆記 1

1.2 監督學習 1.統計學習的特點 1.以計算機及網路為平台,是建立在計算機及網路之上的 2.以資料為研究物件,是資料驅動的學科 3.目的是對資料進行 和分析 4.以方法為中心,構建模型並應用模型進行 與分析 5.是概率論,統計學,資訊理論,計算理論,最優化理論,及電腦科學等多個領域的交叉學科,並...

(李航統計學習方法)提公升方法

本文主要包括adaboost和提公升樹,後期會擴充套件到xgboost和lightgbm。boosting通過改變樣本訓練權重,學習多個弱分類器,最後進行線性組合,提高分類效能。兩個著重點 如何改變資料的樣本權重或概率分布 如何將弱分類器整合成強分類器 初始化樣本資料權重,假設樣本權重均勻分布,得到...

《統計學習方法》 李航 學習大綱

最近在學習李航寫的統計學習方法概論,每一章都用xmind理清了思路,括號裡是書裡的公式,第一次寫博文,敬請指教 第一章 統計學習方 第二章 感知機 每個方法其實只需要著重掌握三要素和輸入輸出就可以了,主要看模型 策略和演算法。感知機主要是二類分類的線性分類模型。看到後面會注意感知機和支援向量機的區別...