201116西瓜書機器學習系列 11 特徵選擇

特徵選擇的【步驟】，特徵選擇的【方法】

【資訊增益越大，特徵越重要】

relief原理：【能區分開目標的特徵挑出來，區分不開目標的特徵給它去掉】

l1正則化使得w變的【稀疏】，l2正則化【使得w變的比較小】

【l1正則化交點常在座標軸上】，這樣【某個特徵值就會為0】，表示這個特徵沒影響，而【l2正則化的交點常不在座標軸上】，看圖非常好理解做乙個模型，【70%-90%時間】會花在特徵工程上面；【最耗時、最有創造力】的部分；【不同模型】對特徵工程【要求不一樣】；【cnn、dnn對特徵工程要求較低】

先講乙個引子 k nearst labor 然後講降維方法有線性和非線性兩種然後是度量學習降維方法主要是線性和非線性兩種線性的裡面有我們熟知的主成分分析pca k近鄰學習的原理就是判斷乙個點的正負的時候，找離他最近的點的正負即可，k 3就是最近的3個樣本比如從1000維降到10...

聚類的效能度量主要分為外部指標和內部指標聚類的基本想是簇內相似度高，簇外相似度低聚類距離計算分為有序屬性無序屬性混合屬性有序和無序混合 a assign 計算每個點到中心點的距離根據距離分配類別 b move 根據a步驟中分配的類別，重新計算中心點 k均值聚類這個過程和em演算...

泛化能力學習的模型適應新樣本的能力。奧卡姆剃刀原則自然科學研究中常用的原則。即若有多個假設和觀測一致，那麼就選擇最簡單的假設。連線主義黑箱模型，例如神經網路，不可解釋性，引數手工等調整符號主義決策理論的學習技術，例如決策樹學習以資訊理論為基礎，以資訊熵的最小化為目標。統計學習 svm...