演算法刷題（2）

題目一：

對應gradientboosting tree演算法，以下說法正確的是:

1. 當增加最小樣本**個數，我們可以抵制過擬合

2. 當增加最小樣本**個數，會導致過擬合

3. 當我們減少訓練單個學習器的樣本個數，我們可以降低variance

4. 當我們減少訓練單個學習器的樣本個數，我們可以降低bias

a2 和 4

b2 和 3

c1 和 3

d1 和 4

解析：答案: c

最小樣本**個數是用來控制「過擬合」引數。太高的值會導致「欠擬合」，這個引數應該用交叉驗證來調節。

偏差：這裡的偏指的是偏離 , 那麼它偏離了什麼到導致了誤差? 潛意識上, 當談到這個詞時, 我們可能會認為它是偏離了某個潛在的「標準」, 而這裡這個「標準」也就是真實情況 (ground truth). 在分類任務中, 這個「標準」就是真實標籤 (label).

方差：乙個隨機變數的方差描述的是它的離散程度, 也就是該隨機變數在其期望值附近的波動程度 .

題目二：

以下哪個圖是knn演算法的訓練邊界

都不是

解析：答案: b

knn演算法肯定不是線性的邊界，所以直的邊界就不用考慮了。另外這個演算法是看周圍最近的k個樣本的分類用以確定分類，所以邊界一定是坑坑窪窪的。

題目三：

變數選擇是用來選擇最好的判別器子集，如果要考慮模型效率，我們應該做哪些變數選擇的考慮？

1. 多個變數其實有相同的用處

2. 變數對於模型的解釋有多大作用

3. 特徵攜帶的資訊

4. 交叉驗證

1 和 4

1, 2 和 3

1,3 和 4

以上所有

解析：答案: c

注意，這題的題眼是考慮模型效率，所以不要考慮選項2.

題目四：

對於線性回歸模型，包括附加變數在內，以下的可能正確的是 :

1. r-squared 和 adjusted r-squared都是遞增的

2. r-squared 是常量的，adjusted r-squared是遞增的

3. r-squared 是遞減的， adjusted r-squared 也是遞減的

4. r-squared 是遞減的， adjusted r-squared是遞增的

1 和 2

1 和 3

2 和 4

以上都不是

解析：答案: d

r-squared不能決定係數估計和**偏差，這就是為什麼我們要估計殘差圖。但是，r-squared有r-squared 和 predicted r-squared 所沒有的問題。每次你為模型加入**器，r-squared遞增或不變.