少數樣本處理

2021-08-19 22:17:26 字數 491 閱讀 2702

在檢測少數樣本時,如果我們採用正常的分類評價指標,則會發現,即使少數類全部分錯,也能達到乙個很高的正確率。所以我們在這種情況下需要另外的策略保證少數類得到足夠的重視

1. 再抽樣

1.1 對多數類隨機欠取樣

- 缺點:資料集沒有完全被利用,而且有可能引入偏差

彌補:

整合學習:

- easyensemble: 併聯方式,將多數類分成n組分別與少數類一起學習,然後綜合結果

- blancecascade: 串聯方式。將多數類分成n組,取一組與少數類一起學習,然後將學習差的樣本與下一組一起學習,迭代知道滿足特定的條件

1.2 對少數類隨機過取樣

-缺點:容易過擬合

彌補:smote方法,採用插值的方式填補,而不是直接複製

2. 演算法

2.1 對類別錯誤施加懲罰,少數類分錯給與更大的懲罰,即採用貝葉斯最小化平均風險,而不是最小化錯誤率

2.1.1 代價矩陣

機器學習 樣本處理

樣本處理 模型冷啟動 構建專家規則模型 前期比機器學習模型重要 平滑過渡 充分部分優先切換 產品 資料 產品的重要性 資料技術不是核心競爭力,但資料是。樣本分佈不一致的解決方案 不一致會有什麼問題?樣本資料和實際資料的分布不一致。難點在於發現 意識到 需要清楚產品需要什麼 樣本不平衡的解決方案 樣本...

工作中樣本處理流程

工作中樣本處理流程 郵件的弄清楚目的,是出報告 清除 盡可能多的收集資訊 1.只有一台機器還是幾台或批量處理.2.目前的症狀.能查,但是清不乾淨.3.有樣本 在虛擬機器復現,和客戶對比,復現成功就在這邊操作,對比不一樣就需要遠端.先用引擎掃一遍,看能查否,不能查先入庫.1.file c docume...

非均衡樣本處理的心法

身處大資料時代,對模型和風控工作者來說無異於福音。但與此同時,資料呈現長尾分布,不均衡分布導致訓練困難,效果不佳。具體到風控場景中,負樣本的佔比要遠遠小於正樣本的佔比。考慮乙個簡單的例子,假設有10萬個樣本,其中逾期客戶500個,壞樣本佔比0.5 如果我們直接將資料輸入模型進行訓練,將導致即便全部判...