機器學習筆記(X)線性模型 VI 類別不平衡問題

2021-08-13 17:07:34 字數 855 閱讀 3243

假設正類和反類的樣例數目相當,但是有時候樣例數量的差別較大,比如正例樣本有998個,而反例樣本只有2個,此時學習方法如果一直返回正例則**的準確度會高達

99.8

% ,但是這樣的學習器沒有任何價值。cl

ass-

imba

lanc

e 是指分類任務中不同類別的訓練樣例的數目差別非常大的情況

假定正類樣本較少,反類樣本較多

從線性分類器的角度討論,在使用y=

wtx+

b 對新樣本進行分類的時候,實際上是在用**出的

y 值和乙個閾值進行比較,通常在

y>

0.5時判為正例,否則為反例。

y實際上表達了正例的可能性,機率y1

−y反應了正例可能性和反例可能性的比值,此時閾值

0.5 表明了分類器認為真實正、反例可能性相同,y1

−y>1

則**為正例,反之為反例。

類別不平衡的處理

觀測機率:m+

m−

m+表示正例數目 m−

表示反例數目

此時決策規則改為: y1

−y>m+

m−則**為正例,反之為反例。

取樣假定正類樣本較少,反類樣本較多

欠取樣減少多的,這裡除去一些反例樣本,使得正反例樣本數量接近

過取樣增加少的,這裡增加一些正例樣本,使得正反例樣本數量接近

基於原始訓練集

對樣本數量不做處理,保持原狀,

使用再縮放策略,

再縮放y′

1−y′

=y1−

y×m−

m+將上式嵌入到決策過程中。

機器學習筆記 線性模型

寫在前面的一些廢話 伴隨課程以及自習,學得既算系統也算零散。學校多統計,演算法講解幾近寥寥。自古以來,統計系的教授多半樂於指摘機器學習與人工智慧,但學科總又不得不與之掛鉤密切,且多隨其發展潮起潮落。內部糾紛,不足為外人道已。只有深受其紛雜概念困擾的學習者,感觸頗深。不隨時總結,建立知識庫,實在容易迷...

機器學習線性模型學習筆記

參考 周志華機器學習第三章 給定由d個屬性描述的示例x x1 x2 x d 其中xi是x在第i個屬性上的取值,線性模型試圖學得乙個通過屬性的線性組合來進行 函式,即 f x w 1x1 w2x2 wdx d b 一般用向量形式寫成 f x w tx b 其中w w1 w2 w d w和b學得之後,模...

機器學習 1 機器學習類別,線性回歸

包括分類,回歸等問題模型。簡單來說,在有監督學習中,所有的資料都會被 打上標籤,基於已知的資料集,進行訓練,然後使用訓練好的模型去 未知的資料集的 結果。包括聚類,關聯規則等問題模型。無監督學習中的資料是沒有標籤的,只能通過一些計算去學習 一些未知的知識。比如聚類演算法中依靠計算距離最近的點,將其分...