機器學習演算法其他重要演算法

1 hmm 隱馬爾科夫模型的引數估計方法

em 演算法

2 boostrap 方法

從資料集中有放回的抽取n次，每次抽m個

3 focal loss 介紹一下

focal loss 主要是為了解決one-stage 目標檢測中正負樣本比例嚴重失衡的問題。該損失函式降低了大量簡單負樣本中所佔的權重，可以理解為一種困難樣本挖掘，

focal loss 在交叉熵損失函式基礎上進行的修改，首先回顧二分類交叉上損失：

是經過啟用函式的輸出，所以在0-1 之間，可見普通的交叉熵對於正樣本而言，輸出的概率越大損失越小，負樣本輸出的概率越小損失越小，此時的損失函式在大量簡單樣本的迭代過程中比較緩慢且可能無法優化到最優。

首先在原有基礎上加了乙個因子，其中gamma>0 使得減少易分類樣本的損失，使得更關注於困難的，錯分的樣本。

加入平衡因子alpha ，用來平衡正負樣本本身的比例不均：

只新增alpha 雖然可以平衡正負樣本的重要性，但是無法解決簡單和困難樣本的問題。

lambda 調節簡單樣本權值降低的速率，當lambda 為0 即為交叉熵損失函式，當lambda 增加時，調整因子的影響也在增加，實驗發現lambda =2 是最優的。

4 正負樣本不平衡的解決辦法，評價指標的參考價值？

上下取樣法

好的指標：roc ，auc，f 值，g-mean；不好的指標：precision，recall

5 auc的理解

auc 體現出容忍樣本傾斜的能力，只反應模型對正負樣本排序能力的強弱，而其直觀含以上是任意取正樣本和負樣本，正樣本的得分大於負樣本的概率。

6 生成模型和判別模型的區別

生成模型先從資料中學習聯合概率分布，然後利用貝葉斯公式求得特徵和標籤對應的條件概率分布，判別模型直接學習條件概率分布，直觀的輸入什麼特徵就**可能的類別。

7 特徵選擇怎麼做？

特徵選擇是乙個重要的資料預處理過程，主要有兩個原因：1 是減少特徵數量，降維，使模型泛化能力更強，減少過擬合，二是增強對特徵和特徵值之間的理解。

常見的特徵解除安裝方式：

1）去除方差較小的特徵

2）正則化，l1 能生成稀疏的模型，l2 的表現更加穩定，由於有用的特徵往往對應的係數非0

3）隨機森林，對於分類問題，通常採用基尼不純度或者資訊增益，對於回歸問題，通常採用的是方差或者最小二乘擬合，一般不需要feature engineering，調參等繁瑣的步驟。它的兩個主要問題：1 是重要的特徵可能得分很低（關聯特徵問題）2 這種方法對特徵變數類別多的特徵越有利。

4）穩定性選擇，是一種基於二次抽樣和選擇演算法相結合較新的方法，選擇演算法可以是回歸，svm 或者其他類似的方法，它的主要思想是在不同的資料子集和特徵子集上執行特徵選擇演算法。不斷的重複，最終彙總特徵選擇的結果，比如可以統計某個特徵被認為是重要特徵的頻率。理想情況下重要特徵的得分會接近100%，稍微弱一點的特徵得分會是非0 的數，而最無用的特徵得分將會接近於0.

8 l1和l2的差別，為什麼乙個絕對值最小，乙個平方最小會有那麼大的差別？

看導數乙個是1乙個是w 就知，在靠近0 附近，l1 以勻速下降到0，l2 則完全停下來，說明l1是將不重要的特徵盡快剔除，l2則是把特徵貢獻盡量壓縮最小但不至於為0，兩者一起作用，兩者一起作用就是把重要性在乙個數量級。

9 id3樹用什麼指標選擇特徵

基於資訊增益最大的作為最優特徵，以此為決策樹的根節點

10 lgb 的優勢

1）更快的訓練速度和更高的效率，lightgbm 使用基於直方圖·的演算法，2）更低的記憶體占用，使用離散的箱子儲存並替換連續值導致更少的記憶體占用，3）更高的準確率，通過leaf-wise 分類方法產生比level-wise **方法更複雜的樹，這就是實現更高準確率的主要的因素，然而它有時候或導致過擬合，可以設定深度來防止過擬合的發生，4）大資料處理能力：相比於xgboost，由於它在訓練時間上的所見，它具有大資料處理的能力，5）支援並行學習

機器學習演算法 其他重要演算法

重要機器學習演算法

機器學習演算法

機器學習演算法

相關推薦

機器學習演算法其他重要演算法