乙個完整的機器學習目錄

召回率f1值

p-r曲線

roc曲線

auc對數損失

多分類錯誤率

平均絕對百分誤差mapr

均分根誤差rmse

清洗爬蟲資料

過濾無效**樣本

取樣方法：

下取樣整體取樣

分層取樣

根據選擇樣本的策略進行分類

根據選擇的樣本進行分類

分層k折交叉驗證(stratified k-fold)

資料和特徵決定了機器學習演算法的上限,而模型和演算法只是不斷逼近這個上限而已.

二值化分桶

分位數分桶：如果數值變數的取值存在很大間隔時,有些桶裡沒有資料,可以基於資料的分布進行分桶,例如利用聚類將特徵分為多個類別.

縮放缺失值處理

特徵交叉

非線性編碼

行統計量

獨熱編碼

分層編碼

雜湊編碼

計數編碼

計數排名編碼

目標編碼

類別特徵之間交叉組合

類別特徵和數值特徵之間交叉組合

兩個時間變數之間

時間序列相關的特徵

基於滑動視窗統計特徵

計算兩個位置之間的距離

語料構建

文字清洗

分詞詞形還原和詞幹提取

文字統計特徵

n-gram模型

skip-gram模型

詞袋模型

tf-idf

余弦相似度

jaccard相似度

levenshtein(編輯距離)

隱性語義分析

word2vec

驗證過程

2.4.1過濾法

皮爾森相關係數

fisher得分

假設檢驗

特徵變數=連續變數,目標變數=連續變數

互資訊(或kl散度/相對熵)

由於單變數過濾方法只考慮了單特徵變數與目標變數之間的相關性,因此選擇的特徵子集可能過於冗餘.

多變數qpfs

spec

相關特徵選擇(cfs)

cfs、mbf、fcbf

工具包資料量大

由於過濾方法與具體的機器學習演算法獨立,因此過濾方法沒有考慮選擇的特徵集合在具體機器學習演算法上的效果.封裝方法直接使用機器學習演算法評估特徵子集的效果,它可以檢測出兩個或多個特徵之間的互動關係,而且選擇的特徵子集讓模型的效果達到最優.

2.4.2封裝方法

分支定界搜尋

非窮舉最優優先搜尋

啟發式搜尋

序列向後選擇

雙向搜尋

增l去r

序列浮動選擇

隨機搜尋

過濾方法與機器學習演算法相互獨立,而且不需要交叉驗證,計算效率比較高,但是過濾演算法沒有考慮機器學習演算法的特點;封裝方法使用預先定義的機器學習演算法來評估特徵子集的質量,需要很多次訓練模型,計算效率很低;嵌入方法則將特徵選擇嵌入到模型的構建過程中,具有封裝方法與機器學習演算法相結合的優點,而且具有過濾方法計算效率高的優點,是實際應用中最常用的方法.

2.4.3嵌入方法　

svm工具包

傳統機器學習：

深度學習：

傳統機器學習：

深度學習：

分類問題

代表方法

extree

gbdt

lightgbm

catboost

乙個完整的機器學習目錄

乙個完整機器學習專案流程總結

乙個完整的機器學習專案在Python中的演練（二）

乙個完整的健身方案

乙個完整的機器學習目錄

乙個完整機器學習專案流程總結

乙個完整的機器學習專案在Python中的演練（二）

乙個完整的健身方案

相關推薦