機器學習深度學習常見面試題第一波

二者都是整合學習演算法，都是將多個弱學習器組合成強學習器的方法。

bagging：從原始資料集中每一輪有放回地抽取訓練集，訓練得到k個弱學習器，將這k個弱學習器以投票的方式得到最終的分類結果。

存在。我們可以使用無監督學習的某些指標或人為地去評估模型效能，以此來判斷是否過擬合。

將原始資料集劃分為k個子集，將其中乙個子集作為驗證集，其餘k-1個子集作為訓練集，如此訓練和驗證一輪稱為一次交叉驗證。交叉驗證重複k次，每個子集都做一次驗證集，得到k個模型，加權平均k個模型的結果作為評估整體模型的依據。

k越大，不一定效果越好，而且越大的k會加大訓練時間；在選擇k時，需要考慮最小化資料集之間的方差，比如對於2分類任務，採用2折交叉驗證，即將原始資料集對半分，若此時訓練集中都是a類別，驗證集中都是b類別，則交叉驗證效果會非常差。

準確率 = tp / (tp + fp)，召回率 = tp / (tp + fn)，其中tp表示將正例正確分類為正例的數量，fp表示將負例錯誤分類為正例的數量，fn表示將正例錯誤分類為負例的數量。

準確率可以理解為在所有分類為正例的樣品中，分類正確的樣本所佔比例；召回率可以理解為在所有原始資料集中的正例樣品中，正確挑出的正例樣本的比例。

因此若增大閾值t，更多不確定（分類概率較小）的樣本將會被分為負例，剩餘確定（分類概率較大）的樣本所佔比例將會增大（或不變），即正確率會增大（或不變）；若增大閾值t，則可能將部分不確定（分類概率較小）的正例樣品誤分類為負例，即召回率會減小（或不變）。

a.增加網路層數，總能減小訓練集錯誤率

b.減小網路層數，總能減小測試集錯誤率

c.增加網路層數，可能增加測試集錯誤率

c。增加神經網路層數，確實可能提高模型的泛化效能，但不能絕對地說更深的網路能帶來更小的錯誤率，還是要根據實際應用來判斷，比如會導致過擬合等問題，因此只能選c。

l1範數：向量中各個元素絕對值之和

l2範數：向量中各個元素平方和的開二次方根

lp範數：向量中各個元素絕對值的p次方和的開p次方根

輸入資料本身存在nan值，或者梯度**了（可以降低學習率、或者設定梯度的閾值）

減小影象尺寸即資料降維，緩解過擬合，保持一定程度的旋轉和平移不變性。

sigmoi，relu，tanh。非線性化

機器學習 深度學習常見面試題 第一波