機器學習筆記（X）線性模型 VI 類別不平衡問題

假設正類和反類的樣例數目相當，但是有時候樣例數量的差別較大，比如正例樣本有998個，而反例樣本只有2個，此時學習方法如果一直返回正例則**的準確度會高達

99.8

% ，但是這樣的學習器沒有任何價值。cl

ass-

imba

lanc

e 是指分類任務中不同類別的訓練樣例的數目差別非常大的情況

假定正類樣本較少，反類樣本較多

從線性分類器的角度討論，在使用y=

wtx+

b 對新樣本進行分類的時候，實際上是在用**出的

y 值和乙個閾值進行比較，通常在

0.5時判為正例，否則為反例。

y實際上表達了正例的可能性，機率y1

−y反應了正例可能性和反例可能性的比值，此時閾值

0.5 表明了分類器認為真實正、反例可能性相同，y1

−y>1

則**為正例，反之為反例。

類別不平衡的處理

觀測機率：m+

m−

m+表示正例數目 m−

表示反例數目

此時決策規則改為： y1

−y>m+

m−則**為正例，反之為反例。

取樣假定正類樣本較少，反類樣本較多

欠取樣減少多的，這裡除去一些反例樣本，使得正反例樣本數量接近

過取樣增加少的，這裡增加一些正例樣本，使得正反例樣本數量接近

基於原始訓練集

對樣本數量不做處理，保持原狀，

使用再縮放策略，

再縮放y′

1−y′

=y1−

y×m−

m+將上式嵌入到決策過程中。

機器學習筆記線性模型

寫在前面的一些廢話伴隨課程以及自習，學得既算系統也算零散。學校多統計，演算法講解幾近寥寥。自古以來，統計系的教授多半樂於指摘機器學習與人工智慧，但學科總又不得不與之掛鉤密切，且多隨其發展潮起潮落。內部糾紛，不足為外人道已。只有深受其紛雜概念困擾的學習者，感觸頗深。不隨時總結，建立知識庫，實在容易迷...

機器學習線性模型學習筆記

參考周志華機器學習第三章給定由d個屬性描述的示例x x1 x2 x d 其中xi是x在第i個屬性上的取值，線性模型試圖學得乙個通過屬性的線性組合來進行函式，即 f x w 1x1 w2x2 wdx d b 一般用向量形式寫成 f x w tx b 其中w w1 w2 w d w和b學得之後，模...

機器學習 1 機器學習類別，線性回歸

包括分類，回歸等問題模型。簡單來說，在有監督學習中，所有的資料都會被打上標籤，基於已知的資料集，進行訓練，然後使用訓練好的模型去未知的資料集的結果。包括聚類，關聯規則等問題模型。無監督學習中的資料是沒有標籤的，只能通過一些計算去學習一些未知的知識。比如聚類演算法中依靠計算距離最近的點，將其分...

機器學習筆記（X）線性模型 VI 類別不平衡問題

機器學習筆記 線性模型

機器學習線性模型學習筆記

機器學習 1 機器學習類別，線性回歸

相關推薦

機器學習筆記線性模型