機器學習(西瓜書)第三章筆記

2021-10-01 20:05:40 字數 1265 閱讀 4130

part5關於多分類學習

以上兩種方法可以從儲存開銷和訓練時間兩個角度來分析模型的優勢。

海明距離:就是比較測試例項中與上面的每一行不同的個數

歐式距離:以測試集和第一行為例,sqrt[(1-(-1))2+(-1-1))2+(1-(-1))2]=sqrt(12)

關於習題答案

習題3.1:試分析在什麼情況下,在以下式子中不比考慮偏置項b

線性模型y=wtx+by=wtx+b,兩個例項相減得到yi−y0=wt(xi−x0),以此消除了b。所以可以對訓練集每個樣本都減去第乙個樣本,然後對新的樣本做線性回歸,只需要用模型y=wtx。

在當前維度線性不可分,可以使用適當的對映方法,使其在更高一維上可分,典型的方法有klda,可以很好的劃分資料。

習題3.7:令碼長為9,類別數為4,試給出海明距離意義下理論最優的eooc二元碼並證明之。

對於ecoc

二元碼,當碼長為2

n時,至少可以使2

n個類別達到最優間隔,他們的海明距離為2(n−

1)。因此當類別數為4時,一共可能的分類器共有24−

2種(排除了全1和全0),在碼長為8的最優分類器後新增一列沒有出現過的分類器,就是碼長為9的最優分類器。

習題3.9:使用ovr和mvm將多分類任務分解為二分類任務求解時,試述為何無需專門針對類別不平衡性進行處理。

書中提到,對於ovrovr,mvmmvm來說,由於對每個類進行了相同的處理,其拆解出的二分類任務中類別不平衡的影響會相互抵消,因此通常不需要專門處理。以ecocecoc編碼為例,每個生成的二分類器會將所有樣本分成較為均衡的二類,使類別不平衡的影響減小。當然拆解後仍然可能出現明顯的類別不平衡現象,比如乙個超級大類和一群小類。

一對一(ovo):將n個類別兩兩配對,從而產生n(n-1)/2個二分類任務。在測試階段,新樣本將同時提交給所有分類器,於是我們將得到n(n-1)/2個分類結果,最終結果可通過投票產生:即把被**得最多的類別作為分類結果

一對多(ovr):每次將乙個類的樣例作為正例,所有其他類的樣例作為反例來訓練n個分類器。在測試時若僅有乙個分類器**為正類,則對應的類別標記作為最終分類結果。若有多個分類器**為正類,則通常考慮各分類器的**置信度,選擇置信度最大的類別標記作為分類結果。

西瓜書 第三章 線性模型總結

1 線性組合的基本形式是什麼?向量形式怎麼表示?2 線性模型與非線性模型之間有什麼關係?如何通過現象模型得到非線性模型?1 對資料處理 這裡指對離散屬性的量化 例如 身高 的 高 低 可轉化為 身高 的 高 中 低 可轉化為 瓜類 的 西瓜 南瓜 黃瓜 可轉化為,注 若將為無序屬性連續化,則會不恰當...

機器學習(西瓜書)第三章 3 3對率回歸程式設計

常用 1.f csv.reader open watermelon3 0 ch.csv r 2.enumerate 3.concatenate np.concatenate px1,px2,np.ones 50,1 axis 1 4.np.where ans 0.5,是 否 5.import mat...

機器學習(西瓜書)第三章 3 4 交叉驗證 留一法

連線 注意 交叉驗證和留一法,都只是用來評估誤差的。訓練實際得到的模型是使用所有資料集的。ok 採用的是uci使用最多的iris資料集。特別注意,得到的引數結果是不收斂的。但測試的結果卻是完全正確的。這裡有些混淆。在吳恩達課程中,不使用批處理的情況下,一般情況會越小,並且最終收斂的是代價函式j,與引...