機器學習面試題邏輯回歸

q1:邏輯回歸在訓練的過程當中，如果有很多的特徵高度相關或者說有乙個特徵重複了很多遍，會造成怎樣的影響

如果在損失函式最終收斂的情況下，其實就算有很多特徵高度相關也不會影響分類器的效果。但是對特徵本身來說的話，假設只有乙個特徵，在不考慮取樣的情況下，你現在將它重複 n 遍。訓練以後完以後，資料還是這麼多，但是這個特徵本身重複了 n 遍，實質上將原來的特徵分成了 n 份，每乙個特徵都是原來特徵權重值的百分之一。

q2:為什麼還是會在訓練的過程當中將高度相關的特徵去掉

去掉高度相關的特徵會讓模型的可解釋性更好；

可以大大提高訓練的速度。

q3:邏輯回歸的優缺點

缺點：

q4:簡單介紹一下邏輯回歸演算法

邏輯回歸是在資料服從伯努利分布的假設下，通過極大似然的方法，運用梯度下降法來求解引數，從而達到將資料二分類的目的

q5:機器學習中的損失函式

q6:給你乙個有1000列和1百萬行的訓練資料集，這個資料集是基於分類問題的。經理要求你來降低該資料集的維度以減少模型計算時間，但你的機器記憶體有限。你會怎麼做？（你可以自由做各種實際操作假設。）

你的面試官應該非常了解很難在有限的記憶體上處理高維的資料。以下是你可以使用的處理方法：

1.由於我們的ram很小，首先要關閉機器上正在執行的其他程式，包括網頁瀏覽器等，以確保大部分記憶體可以使用。

2.我們可以隨機取樣資料集。這意味著，我們可以建立乙個較小的資料集，比如有1000個變數和30萬行，然後做計算。

3.為了降低維度，我們可以把數值變數和分類變數分開，同時刪掉相關聯的變數。對於數值變數，我們將使用相關性分析；對於分類變數，我們可以用卡方檢驗。

4.另外，我們還可以使用pca（主成分分析），並挑選可以解釋在資料集中有最大偏差的成分。

6.利用stochastic gradientdescent（隨機梯度下降法）建立線性模型也很有幫助。

7.我們也可以用我們對業務的理解來估計各**變數對響應變數的影響的大小。但是，這是乙個主觀的方法，如果沒有找出有用的**變數可能會導致資訊的顯著丟失。

q7:給你乙個資料集，這個資料集有缺失值，且這些缺失值分布在離中值有1個標準偏差的範圍內。百分之多少的資料不會受到影響？為什麼？

約有32%的資料將不受缺失值的影響。因為，由於資料分布在中位數附近，讓我們先假設這是乙個正態分佈。我們知道，在乙個正態分佈中，約有68%的資料位於跟平均數（或眾數、中位數）1個標準差範圍內，那麼剩下的約32%的資料是不受影響的。因此，約有32%的資料將不受缺失值的影響。

機器學習面試題邏輯回歸

機器學習面試題之邏輯回歸（二）

邏輯回歸面試題

機器學習邏輯回歸常見面試題整理

機器學習面試題 邏輯回歸

機器學習面試題之邏輯回歸（二）

邏輯回歸面試題

機器學習 邏輯回歸常見面試題整理

相關推薦

機器學習面試題邏輯回歸

機器學習邏輯回歸常見面試題整理