乙個月刷完機器學習筆試題300題(9)

2021-08-30 19:40:37 字數 2964 閱讀 6286

1、對於下面三個模型的訓練情況, 下面說法正確的是:

第一張圖的訓練錯誤與其餘兩張圖相比,是最大的

最後一張圖的訓練效果最好,因為訓練錯誤最小

第二張圖比第一和第三張圖魯棒性更強,是三個裡面表現最好的模型

第三張圖相對前兩張圖過擬合了

三個圖表現一樣,因為我們還沒有測試資料集

a 1 和 3

b 1 和 3

c 1, 3 和 4

d 5正確答案是:c

最後一張過擬合, 訓練錯誤最小, 第一張相反, 訓練錯誤就是最大了. 所以1是對的;

僅僅訓練錯誤最小往往說明過擬合, 所以2錯, 4對;

第二張圖平衡了擬合和過擬合, 所以3對;

2、對於線性回歸,我們應該有以下哪些假設?

找到離群點很重要, 因為線性回歸對離群點很敏感

線性回歸要求所有變數必須符合正態分佈

線性回歸假設資料沒有多重線性相關性

a1 和 2

b2 和 3

c1,2 和 3

d以上都不是

正確答案是:d

第1個假設, 離群點要著重考慮, 第一點是對的

第2個假設, 正態分佈不是必須的. 當然, 如果是正態分佈, 訓練效果會更好

第3個假設, 有少量的多重線性相關性也是可以的, 但是我們要盡量避免

3、當我們構造線性模型時, 我們注意變數間的相關性. 在相關矩陣中搜尋相關係數時, 如果我們發現3對變數的相關係數是(var1 和var2, var2和var3, var3和var1)是-0.98, 0.45, 1.23 . 我們可以得出什麼結論:

var1和var2是非常相關的

因為var1和var2是非常相關的, 我們可以去除其中乙個

var3和var1的1.23相關係數是不可能的 a

1 and 3

b1 and 2

c1,2 and 3d1

正確答案是:c

相關性係數範圍應該是 [-1,1]

一般地, 如果相關係數大於0.7或者小於-0.7, 是高相關的.

var1和var2相關係數是接近負1, 所以這是多重線性相關, 我們可以考慮去除其中乙個.

所以1, 2, 3個結論都是對的, 選c.

4、如果在乙個高度非線性並且複雜的一些變數中, 乙個樹模型可能比一般的回歸模型效果更好. 這是()a對的

b錯的正確答案是:a

5、下面對整合學習模型中的弱學習者描述錯誤的是?

a他們經常不會過擬合

b他們通常帶有高偏差,所以其並不能解決複雜學習問題

c他們通常會過擬合

正確答案是:c

注意是錯誤的描述

弱學習者是問題的特定部分。所以他們通常不會過擬合,這也就意味著弱學習者通常擁有低方差和高偏差。

6、下面哪個/些選項對 k 折交叉驗證的描述是正確的?

1.增大 k 將導致交叉驗證結果時需要更多的時間

2.更大的 k 值相比於小 k 值將對交叉驗證結構有更高的信心

3.如果 k=n,那麼其稱為留一交叉驗證,其中 n 為驗證集中的樣本數量

a1 和 2

b2 和 3

c1 和 3

d1、2 和 3

正確答案是:d

大 k 值意味著對過高估計真實預期誤差(訓練的折數將更接近於整個驗證集樣本數)擁有更小的偏差和更多的執行時間(並隨著越來越接近極限情況:留一交叉驗證)。我們同樣在選擇 k 值時需要考慮 k 折準確度和方差間的均衡。

7、最出名的降維演算法是 pca 和 t-sne。將這兩個演算法分別應用到資料「x」上,並得到資料集「x_projected_pca」,「x_projected_tsne」。下面哪一項對「x_projected_pca」和「x_projected_tsne」的描述是正確的?

ax_projected_pca 在最近鄰空間能得到解釋

bx_projected_tsne 在最近鄰空間能得到解釋

c兩個都在最近鄰空間能得到解釋

d兩個都不能在最近鄰空間得到解釋

正確答案是: b

t-sne 演算法考慮最近鄰點而減少資料維度。所以在使用 t-sne 之後,所降的維可以在最近鄰空間得到解釋。但 pca 不能。

8、給定三個變數 x,y,z。(x, y)、(y, z) 和 (x, z) 的 pearson 相關性係數分別為 c1、c2 和 c3。現在 x 的所有值加 2(即 x+2),y 的全部值減 2(即 y-2),z 保持不變。那麼運算之後的 (x, y)、(y, z) 和 (x, z) 相關性係數分別為 d1、d2 和 d3。現在試問 d1、d2、d3 和 c1、c2、c3 之間的關係是什麼?

a d1= c1, d2 < c2, d3 > c3

bd1 = c1, d2 > c2, d3 > c3

cd1 = c1, d2 > c2, d3 < c3

dd1 = c1, d2 < c2, d3 < c3

ed1 = c1, d2 = c2, d3 = c3

正確答案是:e

特徵之間的相關性係數不會因為特徵加或減去乙個數而改變。

9、為了得到和 svd 一樣的投射(projection),你需要在 pca 中怎樣做?

a將資料轉換成零均值

b將資料轉換成零中位數

c無法做到

正確答案是:a

當資料有乙個 0 均值向量時,pca 有與 svd 一樣的投射,否則在使用 svd 之前,你必須將資料均值歸 0

10、假設我們有乙個資料集,在乙個深度為 6 的決策樹的幫助下,它可以使用 100% 的精確度被訓練。現在考慮一下兩點,並基於這兩點選擇正確的選項。

注意:所有其他超引數是相同的,所有其他因子不受影響。

1.深度為 4 時將有高偏差和低方差

2.深度為 4 時將有低偏差和低方差

a只有 1

b只有 2

c1 和 2

d沒有乙個

正確答案是:a

如果在這樣的資料中你擬合深度為 4 的決策樹,這意味著其更有可能與資料欠擬合。因此,在欠擬合的情況下,你將獲得高偏差和低方差。

乙個月刷完機器學習筆試題300題(8)

1 對於下圖,最好的主成分選擇是多少 b30c35 dcan t say 正確答案是 b 主成分選擇使variance越大越好,在這個前提下,主成分越少越好。2 資料科學家可能會同時使用多個演算法 模型 進行 並且最後把這些演算法的結果整合起來進行最後的 整合學習 以下對整合學習說法正確的是 a單個...

乙個月刷完機器學習筆試題300題(12)

1 假定你用乙個線性svm分類器求解二類分類問題,如下圖所示,這些用紅色圓圈起來的點表示支援向量 如果移除這些圈起來的資料,決策邊界 即分離超平面 是否會發生改變?ayesbno 正確答案是 b 從資料的分布來看,移除那三個資料,決策邊界不會受影響。2 如果將資料中除圈起來的三個點以外的其他資料全部...

頹廢的乙個月

哎,九月末到十月末實在是太頹廢了。其實是因為不想面對一些事。但現在想想,是我自己忘記了最初的夢想,之去追求一些有的沒的的,所以才如此不精進。記得那幾天玩的也不好,每每想到自己還沒學好,還是個醬油的時候,就很煩惱。室友也說我,為什麼最近不怎麼去實驗室了?我也不知道怎麼回答。甚至可以躺床上一整天,一直躺...