基本機器學習面試問題理論演算法2

線性回歸

可以新增多項式和互動特徵以增加非線性

邏輯回歸

knn給定乙個資料點，使用一定的距離度量（例如歐幾里德距離）計算 k 個最近的資料點（近鄰）。對於分類，可以取大多數近鄰的標籤；對於回歸，我們採用標籤值的均值。

對於 knn 來說，我們不需要訓練模型，我們只是在推理時間內進行計算。這可能在計算上很昂貴，因為每個測試樣本都需要與每個訓練樣本進行比較以了解它們有多接近。

有近似的方法可以有更快的推斷時間，通過將訓練資料集劃分成區域。

注意，當 k 等於 1 或其他小數字時，模型容易出現過擬合（高方差），而當 k 等於資料點數或更大的數字時，模型容易出現欠擬合（高偏差）。

決策樹

bagging

為了解決過擬合問題，我們可以使用稱為 bagging（bootstrap aggregating）的整合方法，它減少了元學習演算法的方差。bagging 可以應用於決策樹或其他演算法。

這是乙個很好的例子：

隨機森林

隨機森林通過增加一些隨機性來進一步改善 bagging。在隨機森林中，只隨機選擇一部分特徵來構建樹（而不是子取樣例項）。好處是隨機森林減少了樹之間的相關性。

假設我們有乙個資料集。有乙個資訊增益很高的特徵，以及一些**性較弱的特徵。在 bagging 樹中，大多數樹將在頂部拆分時使用這個**性很強的特徵，因此使得大部分樹看起來相似，並且高度相關。與互不相關的結果相比，對高度相關的結果取平均不會大量降低方差。在隨機森林中，每一次劃分節點我們只考慮特徵的乙個子集，並因此通過引入更多不相關的樹來進一步減少方差。

在實踐中，調整隨機森林需要擁有大量的樹（越多越好，但需要考慮計算約束）。此外，用 min_samples_leaf（葉節點的樣本的最小數量）來控制樹大小和過擬合。

特徵的重要性：

在決策樹中，更重要的特徵可能更接近樹的頂部。通過計算它在森林中所有樹上出現的平均深度，我們可以得到乙個特徵對於隨機森林的重要性。

boosting 樹

原理與隨機森林（rf）的區別

xgboost（極端梯度提公升）：

xgboost 使用更正則化的模型來控制過擬合，從而使其具有更好的效能。

cnnconv 層是卷積神經網路的基礎結構。conv 層由一組可學習的濾波器（例如 5 × 5 × 3，寬×高×深）組成。在前向傳遞期間，我們將濾波器在輸入上滑動（或更準確地說，卷積）並計算點積。當網路反向傳播誤差時，再次進行學習。

初始層可以捕捉低階特徵（如角度和邊緣），而後面的層可以學習前一層低階特徵的組合，因此可以表示高階特徵，如形狀和目標部分。

rnn 和 lstm

rnn 是神經網路的另乙個正規化，有不同層的神經元，每個神經元不只把前一層神經元的輸出作為輸入，而且把同一層的前乙個神經元的輸出作為輸入。

這看起來很棒，但實際上由於相同矩陣的一系列乘法運算，會造成梯度消失或梯度**，使 rnn 幾乎不能運作。為了解決這個問題，我們可以使用 rnn 的乙個變種，長短時記憶（lstm），它能夠學習長期的依賴關係。

lstm 背後的數學演算法可能相當複雜，但直觀上 lstm 引入了輸入門 - 輸出門 - 遺忘門 - 記憶單元（內部狀態）

lstm 模仿人類的記憶過程：忘記舊的東西（舊的內部狀態×遺忘門）並重新輸入（輸入節點×輸入門）

生成與判別

給定乙個訓練集，像邏輯回歸或感知器這樣的演算法會試圖找到一條直線，即決策邊界，將大象和狗分開。然後，將新的動物分類為大象或狗，演算法會檢查樣本在決策邊界的哪一邊，並據此做出**。

下面是一種不同的方法。首先，看大象，我們可以建立乙個大象看起來像什麼的模型。然後，看著狗，我們可以建立乙個狗的樣子的單獨模型。最後，為了對新動物進行分類，我們可以將新動物與大象模型進行匹配，並將其與狗模型進行匹配，看看新動物看起來更像大象還是更像我們在訓練集中看到的狗。

引數與非引數

參考文章

基本機器學習面試問題理論演算法2

機器學習面試問題2

機器學習面試問題1

機器學習面試問題10

基本機器學習面試問題 理論 演算法2

機器學習面試問題2

機器學習面試問題1

機器學習面試問題10

相關推薦

基本機器學習面試問題理論演算法2