機器學習演算法 其他重要演算法

2021-09-27 09:57:38 字數 2045 閱讀 4367

1 hmm 隱馬爾科夫模型的引數估計方法

em 演算法

2 boostrap 方法

從資料集中有放回的抽取n次,每次抽m個

3 focal loss 介紹一下

focal loss 主要是為了解決one-stage 目標檢測中正負樣本比例嚴重失衡的問題。該損失函式降低了大量簡單負樣本中所佔的權重,可以理解為一種困難樣本挖掘,

focal loss 在交叉熵損失函式基礎上進行的修改,首先回顧二分類交叉上損失:

是經過啟用函式的輸出,所以在0-1 之間,可見普通的交叉熵對於正樣本而言,輸出的概率越大損失越小,負樣本輸出的概率越小損失越小,此時的損失函式在大量簡單樣本的迭代過程中比較緩慢且可能無法優化到最優。

首先在原有基礎上加了乙個因子,其中gamma>0 使得減少易分類樣本的損失,使得更關注於困難的,錯分的樣本。

加入平衡因子alpha ,用來平衡正負樣本本身的比例不均:

只新增alpha 雖然可以平衡正負樣本的重要性,但是無法解決簡單和困難樣本的問題。

lambda 調節簡單樣本權值降低的速率,當lambda 為0 即為交叉熵損失函式,當lambda 增加時,調整因子的影響也在增加,實驗發現lambda =2 是最優的。

4 正負樣本不平衡的解決辦法,評價指標的參考價值?

上下取樣法

好的指標:roc ,auc,f 值,g-mean; 不好的指標:precision,recall

5 auc的理解

auc 體現出容忍樣本傾斜的能力,只反應模型對正負樣本排序能力的強弱,而其直觀含以上是任意取正樣本和負樣本,正樣本的得分大於負樣本的概率。

6 生成模型和判別模型的區別

生成模型先從資料中學習聯合概率分布,然後利用貝葉斯公式求得特徵和標籤對應的條件概率分布,判別模型直接學習條件概率分布,直觀的輸入什麼特徵就**可能的類別。

7 特徵選擇怎麼做?

特徵選擇是乙個重要的資料預處理過程,主要有兩個原因:1 是減少特徵數量,降維,使模型泛化能力更強,減少過擬合,二是增強對特徵和特徵值之間的理解。

常見的特徵解除安裝方式:

1) 去除方差較小的特徵

2) 正則化,l1 能生成稀疏的模型,l2 的表現更加穩定,由於有用的特徵往往對應的係數非0

3) 隨機森林,對於分類問題,通常採用基尼不純度或者資訊增益,對於回歸問題,通常採用的是方差或者最小二乘擬合,一般不需要feature engineering,調參等繁瑣的步驟。它的兩個主要問題:1 是重要的特徵可能得分很低(關聯特徵問題)2 這種方法對特徵變數類別多的特徵越有利。

4)穩定性選擇,是一種基於二次抽樣和選擇演算法相結合較新的方法,選擇演算法可以是回歸,svm 或者其他類似的方法,它的主要思想是在不同的資料子集和特徵子集上執行特徵選擇演算法。不斷的重複,最終彙總特徵選擇的結果,比如可以統計某個特徵被認為是重要特徵的頻率。理想情況下重要特徵的得分會接近100%,稍微弱一點的特徵得分會是非0 的數,而最無用的特徵得分將會接近於0.

8 l1和l2的差別,為什麼乙個絕對值最小,乙個平方最小會有那麼大的差別?

看導數乙個是1乙個是w 就知,在靠近0 附近,l1 以勻速下降到0,l2 則完全停下來,說明l1是將不重要的特徵盡快剔除,l2則是把特徵貢獻盡量壓縮最小但不至於為0,兩者一起作用,兩者一起作用就是把重要性在乙個數量級。

9 id3樹用什麼指標選擇特徵

基於資訊增益最大的作為最優特徵,以此為決策樹的根節點

10 lgb 的優勢

1) 更快的訓練速度和更高的效率,lightgbm 使用基於直方圖·的演算法,2) 更低的記憶體占用,使用離散的箱子儲存並替換連續值導致更少的記憶體占用,3) 更高的準確率,通過leaf-wise 分類方法產生比level-wise **方法更複雜的樹,這就是實現更高準確率的主要的因素,然而它有時候或導致過擬合,可以設定深度來防止過擬合的發生,4) 大資料處理能力: 相比於xgboost,由於它在訓練時間上的所見,它具有大資料處理的能力,5) 支援並行學習

重要機器學習演算法

從svm到隨機森林,再到梯度提公升機,他們都是機器學習領域應用廣泛的代表。svm的理解可以參考該部落格 svm,支援向量機就是一種將低維資料通過核函式對映到高維空間,對資料進行某種變換,使得資料在高維空間可以輕易的實現分離。隨機森林 發現隨機森林這個演算法在分類問題上效果十分的好,大多數情況下效果遠...

機器學習演算法

from 這裡,主要說一下,機器學習演算法的思想和應用!為了以後的應用總結一下!參考王斌譯的機器學習實戰一書。1 svd 奇異值分解 svd可以簡化資料,去除雜訊!對於簡化資料,使用svd,可以用小得多的資料集表示原有資料集。這樣實際上是去除了雜訊和冗餘資訊。比如有乙個32 32的影象,通過svd的...

機器學習演算法

1.c4.5演算法。c4.5 演算法與id3 演算法一樣,都是數學分類演算法,c4.5 演算法是id3 演算法的乙個改進。id3演算法採用資訊增益進行決策判斷,而 c4.5 採用的是增益率。2.cart演算法。cart 演算法的全稱是分類回歸樹演算法,他是乙個二元分類,採用的是類似於熵的基尼指數作為...