乙個月刷完機器學習筆試題300題（8）

1、對於下圖, 最好的主成分選擇是多少 ?

b30c35

dcan』t say

正確答案是： b

主成分選擇使variance越大越好，在這個前提下，主成分越少越好。

2、資料科學家可能會同時使用多個演算法（模型）進行**，並且最後把這些演算法的結果整合起來進行最後的**（整合學習），以下對整合學習說法正確的是

a單個模型之間有高相關性

b單個模型之間有低相關性

c在整合學習中使用「平均權重」而不是「投票」會比較好

d單個模型都是用的乙個演算法

正確答案是： b ？？？？

？？？bagging具有低相關性，而boosting是不是高相關性？？？

3、在有監督學習中，我們如何使用聚類方法？

我們可以先建立聚類類別，然後在每個類別上用監督學習分別進行學習

我們可以使用聚類「類別id」作為乙個新的特徵項，然後再用監督學習分別進行學習

在進行監督學習之前，我們不能新建聚類類別

我們不可以使用聚類「類別id」作為乙個新的特徵項，然後再用監督學習分別進行學習

a2 和 4

b1 和 2

c3 和 4

d1 和 3

正確答案是： b

我們可以為每個聚類構建不同的模型，提高**準確率。

「類別id」作為乙個特徵項去訓練，可以有效地總結了資料特徵。

4、以下說法正確的是

乙個機器學習模型，如果有較高準確率，總是說明這個分類器是好的

如果增加模型複雜度，那麼模型的測試錯誤率總是會降低

如果增加模型複雜度，那麼模型的訓練錯誤率總是會降低

我們不可以使用聚類「類別id」作為乙個新的特徵項，然後再用監督學習分別進行學習a1

b2c3

d2和3e都錯

正確答案是：e

1的模型中, 如果負樣本佔比非常大,也會有很高的準確率, 對正樣本的分類不一定很好;

4的模型中, 「類別id」可以作為乙個特徵項去訓練, 這樣會有效地總結了資料特徵。

5、對應gradientboosting tree演算法，以下說法正確的是:

當增加最小樣本**個數，我們可以抵制過擬合

當增加最小樣本**個數，會導致過擬合

當我們減少訓練單個學習器的樣本個數，我們可以降低variance

當我們減少訓練單個學習器的樣本個數，我們可以降低bias

a2 和 4

b2 和 3

c1 和 3

d1 和 4

正確答案是：c

最小樣本**個數是用來控制「過擬合」引數。太高的值會導致「欠擬合」，這個引數應該用交叉驗證來調節。

第二點是靠bias和variance概念的。

6、以下哪個圖是knn演算法的訓練邊界

bacd

dce都不是

正確答案是： b

knn演算法肯定不是線性的邊界，所以直的邊界就不用考慮了。另外這個演算法是看周圍最近的k個樣本的分類用以確定分類，所以邊界一定是坑坑窪窪的。

7、如果乙個訓練好的模型在測試集上有100%的準確率，這是不是意味著在乙個新的資料集上，也會有同樣好的表現？

a是的，這說明這個模型的範化能力已經足以支援新的資料集合了

b不對，依然後其他因素模型沒有考慮到，比如噪音資料

正確答案是： b

沒有乙個模型是可以總是適應新資料的。我們不可能可到100%準確率。

8、下面的交叉驗證方法

i. 有放回的bootstrap方法

ii. 留乙個測試樣本的交叉驗證

iii. 5折交叉驗證

iv. 重複兩次的5折教程驗證

當樣本是1000時，下面執行時間的順序，正確的是

ai > ii > iii > iv

bii > iv > iii > i

civ > i > ii > iii

dii > iii > iv > i

正確答案是： b

boostrap方法是傳統地隨機抽樣，驗證一次的驗證方法，只需要訓練1次模型，所以時間最少。

留乙個測試樣本的交叉驗證，需要n次訓練過程（n是樣本個數），這裡，要訓練1000個模型。

5折交叉驗證需要訓練5個模型。

重複2次的5折交叉驗證，需要訓練10個模型。

所有b是正確的

9、變數選擇是用來選擇最好的判別器子集，如果要考慮模型效率，我們應該做哪些變數選擇的考慮？

多個變數其實有相同的用處

變數對於模型的解釋有多大作用

特徵攜帶的資訊

交叉驗證

a1 和 4

b1, 2 和 3

c1,3 和 4

d以上所有

正確答案是：c

注意，這題的題眼是考慮模型效率，所以不要考慮選項2.

10、對於線性回歸模型，包括附加變數在內，以下的可能正確的是 :

r-squared 和 adjusted r-squared都是遞增的

r-squared 是常量的，adjusted r-squared是遞增的

r-squared 是遞減的， adjusted r-squared 也是遞減的

r-squared 是遞減的， adjusted r-squared是遞增的

a1 和 2

b1 和 3

c2 和 4

d以上都不是

正確答案是：d

r-squared不能決定係數估計和**偏差，這就是為什麼我們要估計殘差圖。但是，r-squared有r-squared 和 predicted r-squared 所沒有的問題。

每次你為模型加入**器，r-squared遞增或不變.

乙個月刷完機器學習筆試題300題（9）

1 對於下面三個模型的訓練情況，下面說法正確的是第一張圖的訓練錯誤與其餘兩張圖相比，是最大的最後一張圖的訓練效果最好，因為訓練錯誤最小第二張圖比第一和第三張圖魯棒性更強，是三個裡面表現最好的模型第三張圖相對前兩張圖過擬合了三個圖表現一樣，因為我們還沒有測試資料集 a 1 和 3 b 1 和...

乙個月刷完機器學習筆試題300題（12）

1 假定你用乙個線性svm分類器求解二類分類問題，如下圖所示，這些用紅色圓圈起來的點表示支援向量如果移除這些圈起來的資料，決策邊界即分離超平面是否會發生改變？ayesbno 正確答案是 b 從資料的分布來看，移除那三個資料，決策邊界不會受影響。2 如果將資料中除圈起來的三個點以外的其他資料全部...

頹廢的乙個月

哎，九月末到十月末實在是太頹廢了。其實是因為不想面對一些事。但現在想想，是我自己忘記了最初的夢想，之去追求一些有的沒的的，所以才如此不精進。記得那幾天玩的也不好，每每想到自己還沒學好，還是個醬油的時候，就很煩惱。室友也說我，為什麼最近不怎麼去實驗室了？我也不知道怎麼回答。甚至可以躺床上一整天，一直躺...

乙個月刷完機器學習筆試題300題（8）

乙個月刷完機器學習筆試題300題（9）

乙個月刷完機器學習筆試題300題（12）

頹廢的乙個月

相關推薦