《百面》 3 經典演算法

2021-09-29 13:59:23 字數 1241 閱讀 6753

目錄

1.支援向量機

問題1.在空間上線性可分的兩類點,分別向svm分類的超平面做投影,這些點在超平面上的投影仍是線性可分麼?

問題2.是否存在一組引數使svm訓練誤差為0?

問題3.訓練誤差為0的svm分類器一定存在麼?

問題4.加入鬆弛變數的svn訓練誤差可以為0麼?

2.邏輯回歸

問題 1.邏輯回歸相比於線性回歸,有何異同?

問題2.當使用邏輯回歸處理多標籤的分類問題時,有哪些常見的做法,分別應用於那些場景,他們之間又有怎樣的關係?

3.決策樹

問題1。決策樹有哪些常用的啟發函式?

(1)id3——最大資訊增益

(2)c4.5——最大資訊增益比

(3)cart——最大基尼指數(gini)

問題2.如何對決策樹進行剪枝?

(1)預剪枝

(2)後剪枝

svm理解:

答:對於任意線性可分的兩組點,他們在svm分類的超平面上的投影都是線性不可分的

答:存在

答:存在

答:不能

答:不同。邏輯回歸處理的是分類問題,線性回歸處理的是回歸問題。在邏輯回歸中,因變數取值是乙個二元分布,模型學習得出的是因變數的期望,是離散的。並基於此期望來處理**分類問題。而線性回歸求解的是對真實值的**,是連續的。雖然求出來的是y=1的概率,但是我們把y當做因變數,所以他是離散的。

相同:他們都使用了極大似然估計來隊訓練樣本建模。二者在求解超引數的過程中,都使用了梯度下降。

答:當存在的樣本可能屬於多個標籤時,我們可以訓練k個二分類的邏輯回歸分類器。第i個分類器用於區分每個樣本是否是第i類,需要把標籤重定義為,第i類和非第i類,兩種。

答:特徵a對於資料集d的資訊增益比定義為,

gini描述的是資料的純度,於資訊熵含義類似。

特徵a的gini指數定義為

id3採用資訊增益作為評價標準,因為資訊增益反應的是給定條件以後不確定的減少程度,特徵取值越多以為只確定性越高,也就是條件熵越小,資訊增益越大。但是泛化能力太差,所以c4.5實際上是對id3進行優化,通過引入資訊增益比,一定程度上對取值較多的特徵進行懲罰,避免id3出現過擬合的特徵,提公升決策樹的泛化能力。

答:預剪枝對於何時停止決策樹的生長有以下幾種

1.當樹到達一定深度的時候,停止樹的生長

2.當到達當前節點的樣本數量小於某個闕值的時候,停止樹的生長。

3.計算每次**對測試集的準確度提公升,當小於某個闕值的時候,不再繼續擴充套件。

百面機器學習(3) 經典演算法

目錄 svm svm模型推導,和函式,smo演算法 邏輯回歸 邏輯回歸,線性回歸,多標籤分類,softmax 決策樹 資訊理論,樹形資料結構,優化理論 1.在空間上線性可分的兩類點,分別向svm分類的超平面上做投影,這些點在超平面上的投影仍然是線性可分的嗎?3 線性可分的兩類點,即通過乙個超平面可以...

面經 百度 feed 推薦演算法二面

總體有點涼,問推薦系統只能說不懂 1.專案介紹 正常介紹完專案,沒有太深挖 模仿學習和專案的區別 2.問基礎知識 各類啟用函式 bp 演算法流程 cnn 的引數的優化方法 各類梯度下降方法 隨機梯度下降 mini batch 整個訓練樣本一起進去的區別 gbdt 和 xgboost 的區別 bagg...

PHP經典演算法百錢買小雞

遇到一道有趣的題,並計算2種方法的效率,發現如果窮舉所有組合竟高達1000000次排列 所以簡化到了600次。所以,你的乙個條件,或者乙個運算,可能會提高幾千倍的效率!header content type text html charset utf 8 百錢買小雞 公雞5文錢1只,母雞三文錢乙隻,...