關於特徵工程學習材料和直播的總結和理解。
可以增強資料表達、新增先驗知識。特徵工程一般常常與eda資料分析結合。資料分析和特徵工程有交集,可互為補充。
異常處理:
特徵歸一化/標準化:
資料分桶:
缺失值處理:
特徵構造:
特徵篩選
嵌入式(embedding):結合過濾式和包裹式,學習器訓練過程中自動進行了特徵選擇,常見的有 lasso 回歸;
降維
在實際分析中,特徵工程可以考慮以下5個方面:
1、統計量特徵
a) 計數、求和、比例、標準差;
2、時間特徵:
a)絕對時間、相對時間、節假日、雙休日;
3、地理資訊:
a)分桶方法
4、非線性變換:
a) 取log/p平方/根號,來縮小較大的資料差距。
5、資料分桶:
a) 等頻/等距分桶,best-ks分桶,卡方分桶;
6、特徵組合/特徵交叉
涉及演算法,根據題目資料的型別做選擇。
1、類別不平衡
問題描述:少類別提供資訊太少,沒有學會如何判別少數類。
解決方法:
1、擴充資料集;
2、嘗試其他評價指標:auc等;
3、調整θ值;
4、重取樣:過取樣/欠取樣;
5、合成樣本:smote;
6、選擇其他模型、決策樹等;
7、加權少類別的樣本錯分代價;
8、創新:
a) 將大類分解成多個小類;b) 將小類視為異常點,並用異常檢測建模。
DataWhale 資料探勘 Task3
特徵工程 import pandas as pd import numpy as np import tsfresh as tsf from tsfresh import extract features,select features from tsfresh.utilities.datafram...
零基礎入門NLP組隊學習 Task3(文字分類)
基於機器學習的文字分類 機器學習是對能通過經驗自動改進的計算機演算法的研究。機器學習通過歷史資料訓練出模型對應於人類對經驗進行歸納的過程,機器學習利用模型對新資料進行 對應於人類利用總結的規律對新問題進行 的過程。機器學習有很多種分支,對於學習者來說應該優先掌握機器學習演算法的分類,然後再其中一種機...
零基礎入門資料探勘 Task5 模型融合
先產生一組個體學習器,然後利用某種策略將它們結合起來,加強模型效果。周志華和李航老師的書中都證明隨著個體學習器數目的增大,整合的錯誤率將呈指數級下降,最終趨向於零。因此,模型融合被廣泛應用。簡單來說就是通過對一組的基分類器以某種方式進行組合,以提公升模型整體效能的方法。多模型投票 votingcla...