機器學習中的資料清洗和特徵處理綜述

2021-07-10 09:50:15 字數 853 閱讀 8048

典型的監督學習過程

確定特徵資料

在資料**不固定,不明了的情況下,需要考慮為了達到目標,需要哪些特徵值。首先可以借鑑一些業務經驗選擇一些特徵,然後需要對使用資料的可用性進行評估,包括資料的獲取難度,資料的規模,資料的準確率,資料的覆蓋率等。

特徵處理過程

1,初步處理

樣本取樣 -- 當模型不能使用全部的資料來訓練時,需要對資料進行取樣,設定一定的取樣率。取樣的方法包括隨機取樣,固定比例取樣等方法。

樣本過濾 -- 主要是對樣本中的異常點檢測,以及去除作弊,spam等資料等。

2,特徵分類

在分析完特徵和標註的清洗方法之後,應對特徵進行分類,對於不同的特徵應該有不同的特徵處理方法。

根據不同的分類方法,可以將特徵分為(1)low level特徵和high level特徵。(2)穩定特徵與動態特徵。(3)二值特徵、連續特徵、列舉特徵。具體可參看原文。總的來說對於low level特徵和high level特徵可能適合不同的模型;穩定特徵與動態特徵可以針對性地設計特徵儲存和更新方式;二值特徵、連續特徵、列舉特徵則需要做特徵歸一化,離散化,預設值等處理。

3,特徵處理

特徵處理一般有:

(1)特徵歸一化,離散化,預設值

(2)特徵降維

(3)特徵選擇

文中最後用例項強調了特徵監控的重要性。

機器學習 資料清洗和特徵選擇

第二部分 特徵提取 1.概念 莊家 坐莊的人,負責收發金錢 賠率 表示發生的話可以獲得本金的倍數,例如小明下注10兩,事件a賠率為3,則發生事件a後,小明可獲得30兩,淨賺20兩 事件發生概率與賠率的關係 p y 1,p為概率,y為賠率 盈利率 下注金額 賠付期望 下注金額 2.賠率分析 假定事件有...

機器學習中資料清洗和特徵選擇總結

1.預處理 理解資料及資料特徵 很重要 2.異常樣本資料 3.取樣 資料不均衡問題 1.詞袋法 統計詞頻 2.tf idf tf詞頻,idf逆文件頻率 表示詞在各個文件 現的概率 3.hashtf idf 不計算詞頻,而是計算單詞進行hash後的hash值對應的樣本數量。當計算量太大時用hashtf...

機器學習之資料清洗和特徵選擇

賠率 公平賠率 莊家期望收益為零,沒有利潤 實際賠率 莊家在公平賠率基礎上乘以某小於1的係數,得到真實賠率,其中係數 pandas 用於資料讀取,優勢比numpy強等 庫 fuzzywuzzy 用於資料清洗 pca理論依據 pca降維思想 尋找樣本的主方向u,將m個樣本值投影到某直線l上,得到m個位...