機器學習演算法崗的常見面試問題及準備

2021-08-20 04:10:47 字數 2167 閱讀 2582

機器學習常見問題

1) 2) rf,gbdt 的區別; gbdt,xgboost的區別(爛大街的問題最好從底層原理去分析回答); 

3) 決策樹處理連續值的方法; 

4) 特徵選擇的方法; 

5) 過擬合的解決方法; 

6) k-means 的原理,優缺點以及改進; 

7) 常見分類模型( svm ,決策樹,貝葉斯等)的優缺點,適用場景以及如何選型; 

8) svm 為啥要引入拉格朗日的優化方法; 

9) 假設面試官什麼都不懂,詳細解釋 cnn 的原理; 

10) 梯度下降的優缺點 

11) em與k-means的關係; 

12) l1與l2的作用,區別以及如何解決l1求導困難; 

13) 如何用盡可能少的樣本訓練模型同時又保證模型的效能; 

14) id3和c4.5的優缺點,樹的融合(rf和gbdt) 

15) 特徵提取方法,如何判斷特徵是否重要 

16) bp神經網路以及推導 

17) hmm模型狀態推導 

18) 過擬合原因以及解決辦法(深度學習同) 

19) 常見損失函式 

20)機器學習效能評價,準確率,召回率,roc 

22)降取樣,pca,lda

深度學習常見問題

1)2)過擬合解決方法 

3)(cnn)捲及神經網路各層作用 

4)(rnn)迴圈神經網路 

5)lstm 

6)梯度瀰散 

7)優化演算法 adam,sgd等 

8)分析alexnet,vgg的網路結構以及各層作用 

9)xgboost(好像很多公司也面到了) 

10)梯度下降的優化 

12)卷積核引數計算

演算法工程師面試必備

1. 成為演算法工程師,應該學習哪些東西

首先說演算法工程師有幾個方向:nlp,推薦,cv,深度學習,然後結合公司業務做得內容各不相同

傳統機器學習演算法:感知機,svm,lr,softmax,kmeans,dbscan,決策樹(cart,id3,c45),gbdt,rf,adaboost,xgboost,em,bp神經網路,樸素貝葉斯,lda,pca,核函式,最大熵等

深度學習:cnn,rnn,lstm,常用啟用函式,adam等優化演算法,梯度消失(**)等

推薦系統:itembasedcf,userbasedcf,冷啟動,svd(各種變形),fm,lfm等

nlp:tf-idf,textrank,word2vec(能推導,看過原始碼),lca,simhash

常見概念:最大似然估計,最小二乘法,模型融合方法,l1l2正則(lasso,elestic net),判別式模型與生成式模型,熵-交叉熵-kl散度,資料歸一化,最優化方法(梯度下降,牛頓法,共軛梯度法),無偏估計,f1(roc,recall,precision等),交叉驗證,bias-variance-tradeoff,皮爾遜係數,

概率論,高數,線性代數(像我一樣懶的人,就可以遇到**複習**,:d)

常見問題

常見損失函式

sgd與bgd

如何處理樣本非均衡問題

過擬合原因,以及解決辦法

如何處理資料缺失問題

如何選擇特徵

l1為什麼能讓引數稀疏,l2為什麼會讓引數趨於較小值,l1優化方法

各模型的優缺點,以及適用場景

學明白上述所有內容你需要多長時間?反正我這麼笨的人用了不到一年時間(我本科完全沒接觸過演算法相關,完全是研一學的)

2. 推薦書籍

c++:《c++primer5》《stl原始碼分析》《深度探索c++物件模型》《effective c++》《effective stl》 (雖然有些書有點老,不過開卷有益吧)(其他語言就不管了哈)

python:《python學習手冊》《python原始碼分析》《改善python程式的91個建議》(python必須要會)

刷題:《程式設計之美》《劍指offer》《程式設計師**面試指南》《leetcode》

機器學習常見面試問題(一)

過擬合原因 資料 資料不規範,資料量少,資料穿越,統計特徵用到了未來的資訊或者標籤資訊 演算法 演算法過於複雜 解決 1 將資料規範化,處理缺失值,增加資料量,取樣,新增雜訊資料 2 正則化,控制模型複雜程度,3 early stoping,減少迭代次數,減少樹的深度,4 學習率調大 小點 5 融合...

GBDT演算法原理及常見面試問題

gbdt是一種基於boosting整合方法的加法模型,在每一輪迭代中,產生一棵cart回歸樹來擬合損失函式在當前模型 也就是前t 1棵樹疊加構成的模型下的負梯度值。訓練過程描述如下 輸入 訓練資料,損失函式 輸出 提公升樹模型 1 初始化,估計使得損失函式最小化的常數值 f 0 x a rgmi n...

SVM常見面試問題

答 幾何間隔與樣本的誤分次數間存在關係 其中的分母就是樣本到分類間隔距離,分子中的r是所有樣本中的最長向量值 答 會,超平面會靠近樣本少的類別。因為使用的是軟間隔分類,而如果對所有類別都是使用同樣的懲罰係數,則由於優化目標裡面有最小化懲罰量,所以靠近少數樣本時,其懲罰量會少一些。比如 假設理想的分隔...