乙個月刷完機器學習筆試題300題(8)

2021-08-30 19:40:37 字數 2779 閱讀 7982

1、對於下圖, 最好的主成分選擇是多少 ?

b30c35

dcan』t say

正確答案是: b

主成分選擇使variance越大越好, 在這個前提下, 主成分越少越好。

2、資料科學家可能會同時使用多個演算法(模型)進行**, 並且最後把這些演算法的結果整合起來進行最後的**(整合學習),以下對整合學習說法正確的是

a單個模型之間有高相關性

b單個模型之間有低相關性

c在整合學習中使用「平均權重」而不是「投票」會比較好

d單個模型都是用的乙個演算法

正確答案是: b ????

???bagging具有低相關性,而boosting是不是高相關性???

3、在有監督學習中, 我們如何使用聚類方法?

我們可以先建立聚類類別, 然後在每個類別上用監督學習分別進行學習

我們可以使用聚類「類別id」作為乙個新的特徵項, 然後再用監督學習分別進行學習

在進行監督學習之前, 我們不能新建聚類類別

我們不可以使用聚類「類別id」作為乙個新的特徵項, 然後再用監督學習分別進行學習

a2 和 4

b1 和 2

c3 和 4

d1 和 3

正確答案是: b

我們可以為每個聚類構建不同的模型, 提高**準確率。

「類別id」作為乙個特徵項去訓練, 可以有效地總結了資料特徵。

4、以下說法正確的是

乙個機器學習模型,如果有較高準確率,總是說明這個分類器是好的

如果增加模型複雜度, 那麼模型的測試錯誤率總是會降低

如果增加模型複雜度, 那麼模型的訓練錯誤率總是會降低

我們不可以使用聚類「類別id」作為乙個新的特徵項, 然後再用監督學習分別進行學習a1

b2c3

d2和3e都錯

正確答案是:e

1的模型中, 如果負樣本佔比非常大,也會有很高的準確率, 對正樣本的分類不一定很好;

4的模型中, 「類別id」可以作為乙個特徵項去訓練, 這樣會有效地總結了資料特徵。

5、對應gradientboosting tree演算法, 以下說法正確的是:

當增加最小樣本**個數,我們可以抵制過擬合

當增加最小樣本**個數,會導致過擬合

當我們減少訓練單個學習器的樣本個數,我們可以降低variance

當我們減少訓練單個學習器的樣本個數,我們可以降低bias

a2 和 4

b2 和 3

c1 和 3

d1 和 4

正確答案是:c

最小樣本**個數是用來控制「過擬合」引數。太高的值會導致「欠擬合」,這個引數應該用交叉驗證來調節。

第二點是靠bias和variance概念的。

6、以下哪個圖是knn演算法的訓練邊界

bacd

dce都不是

正確答案是: b

knn演算法肯定不是線性的邊界, 所以直的邊界就不用考慮了。另外這個演算法是看周圍最近的k個樣本的分類用以確定分類,所以邊界一定是坑坑窪窪的。

7、如果乙個訓練好的模型在測試集上有100%的準確率, 這是不是意味著在乙個新的資料集上,也會有同樣好的表現?

a是的,這說明這個模型的範化能力已經足以支援新的資料集合了

b不對,依然後其他因素模型沒有考慮到,比如噪音資料

正確答案是: b

沒有乙個模型是可以總是適應新資料的。我們不可能可到100%準確率。

8、下面的交叉驗證方法

i. 有放回的bootstrap方法

ii. 留乙個測試樣本的交叉驗證

iii. 5折交叉驗證

iv. 重複兩次的5折教程驗證

當樣本是1000時,下面執行時間的順序,正確的是

ai > ii > iii > iv

bii > iv > iii > i

civ > i > ii > iii

dii > iii > iv > i

正確答案是: b

boostrap方法是傳統地隨機抽樣,驗證一次的驗證方法,只需要訓練1次模型,所以時間最少。

留乙個測試樣本的交叉驗證,需要n次訓練過程(n是樣本個數),這裡,要訓練1000個模型。

5折交叉驗證需要訓練5個模型。

重複2次的5折交叉驗證,需要訓練10個模型。

所有b是正確的

9、變數選擇是用來選擇最好的判別器子集, 如果要考慮模型效率,我們應該做哪些變數選擇的考慮?

多個變數其實有相同的用處

變數對於模型的解釋有多大作用

特徵攜帶的資訊

交叉驗證

a1 和 4

b1, 2 和 3

c1,3 和 4

d以上所有

正確答案是:c

注意, 這題的題眼是考慮模型效率,所以不要考慮選項2.

10、對於線性回歸模型,包括附加變數在內,以下的可能正確的是 :

r-squared 和 adjusted r-squared都是遞增的

r-squared 是常量的,adjusted r-squared是遞增的

r-squared 是遞減的, adjusted r-squared 也是遞減的

r-squared 是遞減的, adjusted r-squared是遞增的

a1 和 2

b1 和 3

c2 和 4

d以上都不是

正確答案是:d

r-squared不能決定係數估計和**偏差,這就是為什麼我們要估計殘差圖。但是,r-squared有r-squared 和 predicted r-squared 所沒有的問題。

每次你為模型加入**器,r-squared遞增或不變.

乙個月刷完機器學習筆試題300題(9)

1 對於下面三個模型的訓練情況,下面說法正確的是 第一張圖的訓練錯誤與其餘兩張圖相比,是最大的 最後一張圖的訓練效果最好,因為訓練錯誤最小 第二張圖比第一和第三張圖魯棒性更強,是三個裡面表現最好的模型 第三張圖相對前兩張圖過擬合了 三個圖表現一樣,因為我們還沒有測試資料集 a 1 和 3 b 1 和...

乙個月刷完機器學習筆試題300題(12)

1 假定你用乙個線性svm分類器求解二類分類問題,如下圖所示,這些用紅色圓圈起來的點表示支援向量 如果移除這些圈起來的資料,決策邊界 即分離超平面 是否會發生改變?ayesbno 正確答案是 b 從資料的分布來看,移除那三個資料,決策邊界不會受影響。2 如果將資料中除圈起來的三個點以外的其他資料全部...

頹廢的乙個月

哎,九月末到十月末實在是太頹廢了。其實是因為不想面對一些事。但現在想想,是我自己忘記了最初的夢想,之去追求一些有的沒的的,所以才如此不精進。記得那幾天玩的也不好,每每想到自己還沒學好,還是個醬油的時候,就很煩惱。室友也說我,為什麼最近不怎麼去實驗室了?我也不知道怎麼回答。甚至可以躺床上一整天,一直躺...