機器學習（西瓜書）第三章筆記

part5關於多分類學習

以上兩種方法可以從儲存開銷和訓練時間兩個角度來分析模型的優勢。

海明距離：就是比較測試例項中與上面的每一行不同的個數

歐式距離：以測試集和第一行為例，sqrt[（1-（-1））2+（-1-1））2+（1-（-1））2]=sqrt(12)

關於習題答案

習題3.1：試分析在什麼情況下，在以下式子中不比考慮偏置項b

線性模型y=wtx+by=wtx+b,兩個例項相減得到yi−y0=wt(xi−x0),以此消除了b。所以可以對訓練集每個樣本都減去第乙個樣本，然後對新的樣本做線性回歸，只需要用模型y=wtx。

在當前維度線性不可分，可以使用適當的對映方法，使其在更高一維上可分，典型的方法有klda，可以很好的劃分資料。

習題3.7:令碼長為9，類別數為4，試給出海明距離意義下理論最優的eooc二元碼並證明之。

對於ecoc

二元碼，當碼長為2

n時，至少可以使2

n個類別達到最優間隔，他們的海明距離為2(n−

1)。因此當類別數為4時，一共可能的分類器共有24−

2種(排除了全1和全0)，在碼長為8的最優分類器後新增一列沒有出現過的分類器，就是碼長為9的最優分類器。

習題3.9：使用ovr和mvm將多分類任務分解為二分類任務求解時，試述為何無需專門針對類別不平衡性進行處理。

書中提到，對於ovrovr，mvmmvm來說，由於對每個類進行了相同的處理，其拆解出的二分類任務中類別不平衡的影響會相互抵消，因此通常不需要專門處理。以ecocecoc編碼為例，每個生成的二分類器會將所有樣本分成較為均衡的二類，使類別不平衡的影響減小。當然拆解後仍然可能出現明顯的類別不平衡現象，比如乙個超級大類和一群小類。

一對一（ovo）：將n個類別兩兩配對，從而產生n（n-1）/2個二分類任務。在測試階段，新樣本將同時提交給所有分類器，於是我們將得到n（n-1）/2個分類結果，最終結果可通過投票產生：即把被**得最多的類別作為分類結果

一對多（ovr）：每次將乙個類的樣例作為正例，所有其他類的樣例作為反例來訓練n個分類器。在測試時若僅有乙個分類器**為正類，則對應的類別標記作為最終分類結果。若有多個分類器**為正類，則通常考慮各分類器的**置信度，選擇置信度最大的類別標記作為分類結果。

機器學習（西瓜書）第三章筆記

西瓜書第三章線性模型總結

機器學習（西瓜書）第三章 3 3對率回歸程式設計

機器學習（西瓜書）第三章 3 4 交叉驗證留一法

機器學習（西瓜書）第三章筆記

西瓜書 第三章 線性模型總結

機器學習（西瓜書）第三章 3 3對率回歸程式設計

機器學習（西瓜書）第三章 3 4 交叉驗證 留一法

相關推薦

西瓜書第三章線性模型總結

機器學習（西瓜書）第三章 3 4 交叉驗證留一法