機器學習面試題之邏輯回歸(二)

2021-10-04 04:14:12 字數 1297 閱讀 1329

1.邏輯回歸概述

邏輯回歸是乙個線性的二分類模型,主要是計算在某個樣本特徵下事件發生的概率,比如根據使用者的瀏覽購買情況作為特徵來計算他是否會購買這個商品,lr的最終值是根據乙個線性和函式再通過乙個sigmoid函式來求得的,該線性和函式是權重與特徵值的累加以及加上偏置求出來的,所以訓練lr也就是訓練線性和函式的各個權重w。

權重w一般使用最大似然法來估計,估計出似然函式的負號極小值就會得到最優w解,通常採用隨機梯度下降和擬牛頓法來進行優化。

**一句話總結:**邏輯回歸假設資料服從伯努利分布,通過極大化似然函式的方法,運用梯度下降來求解引數,來達到將資料二分類的目的。

2.邏輯回歸的目的

將資料進行二分類

3.邏輯回歸是如何做分類的

邏輯回歸作為乙個回歸函式,如何用於分類問題。 邏輯回歸中,對於每個 x,其條件概率 y 的確是乙個連續的變數。而邏輯回歸中可以設定乙個閾值,y 值大於這個閾值的是一類,y 值小於這個閾值的是另外一類。至於閾值的選擇,通常是根據實際情況來確定,一般情況下選取 0.5 作為閾值來劃分。

4.邏輯回歸損失函式

邏輯回歸的損失函式是其極大似然函式。

5.邏輯回歸的引數求解方法

極大似然函式無法直接求解,一般是通過對該函式進行梯度下降來不斷逼近其最優解。這裡需要注意的點是要對梯度下降有一定的了解,就梯度下降本身來看的話就有隨機梯度下降,批梯度下降,small batch 梯度下降三種方式,面試官可能會問這三種方式的優劣以及如何選擇最合適的梯度下降方式。

6.邏輯回歸中為什麼使用對數損失而不用平方損失

對於邏輯回歸,這裡所說的對數損失和極大似然是相同的。 不使用平方損失的原因是,在使用 sigmoid 函式作為正樣本的概率時,同時將平方損失作為損失函式,這時所構造出來的損失函式是非凸的,不容易求解,容易得到其區域性最優解。 而如果使用極大似然,其目標函式就是對數似然函式,該損失函式是關於未知引數的高階連續可導的凸函式,便於求其全域性最優解。

7.邏輯回歸的如何分類

這個在上面的時候提到了,要設定乙個閾值,判斷正類概率是否大於該閾值,一般閾值是0.5,所以只用判斷正類概率是否大於0.5即可。

9.為什麼我們還是會在訓練的過程當中將高度相關的特徵去掉

10. 邏輯回歸的優缺點總結

優點

缺點:

機器學習面試題 邏輯回歸

q1 邏輯回歸在訓練的過程當中,如果有很多的特徵高度相關或者說有乙個特徵重複了很多遍,會造成怎樣的影響 如果在損失函式最終收斂的情況下,其實就算有很多特徵高度相關也不會影響分類器的效果。但是對特徵本身來說的話,假設只有乙個特徵,在不考慮取樣的情況下,你現在將它重複 n 遍。訓練以後完以後,資料還是這...

邏輯回歸面試題

q1 邏輯回歸的損失函式,為什麼要用這個損失函式 邏輯回歸的損失函式是它的極大似然函式。損失函式一般有四種,平方損失函式,對數損失函式,hingeloss0 1損失函式,絕對值損失函式。將極大似然函式取對數以後等同於對數損失函式。在邏輯回歸這個模型下,對數損失函式的訓練求解引數的速度是比較快的。q2...

機器學習面試題之線性回歸

1.簡單介紹一下線性回歸 線性就是兩個或者多個變數之間的關係符合一次函式關係,對應到影象上就是一條直線,這叫線性關係。那如果變數之間的關係不符合一次函式,影象就不是直線,也不滿足線性關係。而回歸是指 希望通過計算回歸到真實值。線性回歸是用於 問題的有監督學習,通過學習x到y的乙個對映關係,希望利用學...