機器學習面試題目

2021-08-19 11:28:16 字數 2357 閱讀 8060

過擬合原因

資料:資料不規範,資料量少,資料穿越,統計特徵用到了未來的資訊或者標籤資訊

演算法:演算法過於複雜

解決:

1、將資料規範化,處理缺失值,增加資料量,取樣,新增雜訊資料

2、正則化,控制模型複雜程度,

3、early stoping,減少迭代次數,減少樹的深度,

4、學習率調大/小點、

5、融合幾個模型

l1和l2的區別

1、l1是lasso regression,表示向量中每個元素絕對值的和:l1範數的解通常是稀疏性的,傾向於選擇數目較少的一些非常大的值或者數目較多的insignificant的小值。

2、l2是嶺回歸,ridge regression,是歐氏距離也就是平方和的平方根。l2範數越小,可以使得w的每個元素都很小,接近於0,但l1範數不同的是他不會讓它等於0而是接近於0。

3、l1正則化的w可取的值是轉置的方形,l2對應的是圓形。這樣損失函式l(w)的最小值更容易在l1對應的邊角上取得,從而這些維度變成0了。

從貝葉斯的角度來看,加入正則項相當於加入了一種先驗。即當訓練乙個模型時,僅依靠當前的訓練資料集是不夠的,為了實現更好的泛化能力,往往需要加入先驗項。

l1範數相當於加入了乙個laplacean先驗;

l2範數相當於加入了乙個gaussian先驗。

4、l2對大數的懲罰更大,但是解相對來說比較均勻。

生成模型和判別模型區別

對於輸入x,類別標籤y:

生成式模型估計它們的聯合概率分布p(x,y)

gaussians、***** bayes、mixtures of multinomials

mixtures of gaussians、mixtures of experts、hmms

sigmoidal belief networks, bayesian networks、markov random fields

latent dirichlet allocation

判別式模型估計條件概率分布p(y|x)

logistic regression、svm、traditional neural networks、nearest neighbor、

crf、boosting、linear regression

svm演算法的原理、如何組織訓練資料、如何調節懲罰因子、如何防止過擬合、svm的泛化能力、增量學習

1、svm是一種二類分類的模型,它的基本模型是在特徵空間中尋找間隔最大化的分離超平面的線性分類器。

2、 3、懲罰因子c決定了你有多重視離群點帶來的損失,顯然當所有離群點的鬆弛變數的和一定時,你定的c越大,對目標函式的損失也越大,此時就暗示著你非常不願意放棄這些離群點,最極端的情況是你把c定為無限大,這樣只要稍有乙個點離群,目標函式的值馬上變成無限大,馬上讓問題變成無解,這就退化成了硬間隔問題。

懲罰因子c不是乙個變數,整個優化問題在解的時候,c是乙個你必須事先指定的值,指定這個值以後,解一下,得到乙個分類器,然後用測試資料看看結果怎麼樣,如果不夠好,換乙個c的值,再解一次優化問題,得到另乙個分類器,再看看效果,如此就是乙個引數尋優的過程,但這和優化問題本身決不是一回事,優化問題在解的過程中,c一直是定值,要記住。

4、解決過擬合的辦法是為svm引入了鬆弛變數ξ(slack variable),將svm公式的約束條件改為。因為鬆弛變數能夠容忍異常點的存在,我們的支援向量和超平面都不會受到它的影響。

我們加上鬆弛變數的平方和,並求最小值。這樣就達到乙個平衡:既希望鬆弛變數存在以解決異常點問題,又不希望鬆弛變數太大導致分類解決太差。

lr和svm的聯絡與區別:

聯絡:

1、lr和svm都可以處理分類問題,且一般都用於處理線性二分類問題(在改進的情況下可以處理多分類問題)

2、兩個方法都可以增加不同的正則化項,如l1、l2等等。所以在很多實驗中,兩種演算法的結果是很接近的。

區別:

1、lr是引數模型,svm是非引數模型。

2、從目標函式來看,區別在於邏輯回歸採用的是logistical loss,svm採用的是hinge loss.這兩個損失函式的目的都是增加對分類影響較大的資料點的權重,減少與分類關係較小的資料點的權重。

3、svm的處理方法是只考慮support vectors,也就是和分類最相關的少數點,去學習分類器。而邏輯回歸通過非線性對映,大大減小了離分類平面較遠的點的權重,相對提公升了與分類最相關的資料點的權重。

4、邏輯回歸相對來說模型更簡單,好理解,特別是大規模線性分類時比較方便。而svm的理解和優化相對來說複雜一些,svm轉化為對偶問題後,分類只需要計算與少數幾個支援向量的距離,這個在進行複雜核函式計算時優勢很明顯,能夠大大簡化模型和計算。

5、logic 能做的 svm能做,但可能在準確率上有問題,svm能做的logic有的做不了。

機器學習面試題目總結

1.機器學習中特徵的理解 def 特徵選擇和降維 特徵選擇 原有特徵選擇出子集,不改變原來的特徵空間 降維 將原有的特徵重組成為包含資訊更多的特徵,改變了原有的特徵空間 降維的主要方法 filter方法 chi squared test 卡方檢驗 information gain 資訊增益 詳細可見...

機器學習面試題

答 設計乙個分類模型,首先要給它設定乙個學習目標。在支援向量機中,這個目標是max margin 在adaboost中,目標是優化乙個指數損失函式。那麼在logistic regression lr 中,這個目標是什麼呢?最大化條件似然度。考慮乙個二值分類問題,訓練資料是一堆 特徵,標記 組合,x1...

機器學習面試題 XGBoost

相同點 不同點 先說說lrlr lr和g bd tgbdt gbdt 的區別 當在高維稀疏特徵的場景下,lrlr lr的效果一般會比gbd tgbdt gbdt 好。原因如下 先看乙個例子 假設乙個二分類問題,label為0和1,特徵有100維,如果有1w個樣本,但其中只要10個正樣本1,而這些樣本...