清華大學資料探勘課程幕課習題(第二章)

2021-10-23 01:13:46 字數 4984 閱讀 9695

多選1. 以下關於資料預處理的描述正確的是:

(1分)

需要借助領域知識

核心內容就是缺失資料填充

資料探勘工作的基礎性工作

主要靠標準化演算法自動處理

單選2. 小張的個人資訊中身份證號倒數第二位是單數,性別為女。這種情況被稱為:

(1分)

missing data

inconsistent data

noisy data

redundant data

單選3. 學生小明在調查問卷中沒有回答下述問題:「你去年的工資收入和前年相比是否有所增加?」 對這種情況最恰當的描述是:

(1分)

完全隨機缺失

n/a

資料未提供

異常資料

單選4. 以下針對缺失值問題的闡述正確的是:

(1分)

刪就乙個字

用均值填充即可

用中位數填充即可

具體問題具體分析

單選5. 某大一男生體檢資料中體重值缺失,相對合理的填充值是:

(1分)

40公斤

60公斤

80公斤

100公斤

單選6. 假設男生用1表示,女生用0表示,某人的性別未填,應該如何處理?

(1分)

填1填0

填均值0.5,必須的

可根據其它資訊(如身高、體重)推測

單選7. 以下關於離群點(outlier)和異常點(anomaly)關係的論述正確的是:

(1分)

一回事,說法不同而已

離群點一定是異常點

異常點一定是離群點

不能簡單判定

關於離群點的判定:

(1分)

主要看其與近鄰的平均距離

主要看其與近鄰的最大距離

需要考慮相對距離因素

主要靠感覺

單選2. 採用lof方法進行離群點檢測時:

(1分)

lof值越小越疑似離群點

lof值越大越疑似離群點

lof值越接近1越疑似離群點

lof值越接近0.5越疑似離群點

單選3. case a:兩人名字不同,身份證號相同。 case b:兩人同名同姓,身份證號不同。

(1分)

a為重複資料可能性大

b為重複資料可能性大

我讀書少,看不出什麼區別

單選4. 在記錄手機號碼的時候,相對而言:

(1分)

前三位不容易記錯

末尾三位不容易記錯

中間三位不容易記錯

都一樣單選5. 在記錄英語國家人名時:

(1分)

姓容易寫錯

名容易寫錯

沒有明顯區別

單選6. 對英語國家的人群而言:

(1分)

姓的區分度大

名的區分度大

沒有明顯區別

單選1. 按a, b, c, d打分的考試成績資料屬於:

(1分)

數值型(連續)

數值型(離散)

序數型(ordinal)

標稱型(nominal)

字串多選2. 在對標稱型資料(如顏色、職業等)進行編碼時:

(1分)

按1,2,3,4…順序編碼即可

類別較少時,可考慮採用擴維法

不同編碼可能會影響資料的空間分布

不好處理,刪了算了

多選3. 在大資料分析中,利用取樣技術可以:

(1分)

降低獲取資料的成本

減少需要處理的資料量

有助於處理不平衡資料

提高資料的穩定性

單選4. 對於極度不平衡的二分類資料集,應特別注意:

(1分)

整體的準確率

多數類樣本的準確率

少數類樣本的準確率

兩類樣本準確率的均值

單選5. smote的工作原理是:

(1分)

對多數類樣本進行下取樣

對少數類樣本進行轉殖複製

對少數類樣本通過插值進行上取樣

對整體樣本進行隨機取樣

單選1. 很多人感覺到自己的收入與官方公布的平均收入相去甚遠,最有可能的解釋是:

(1分)

自己工作不夠努力,怨不得別人

統計樣本不具有代表性

個體收入分布極度不均衡

錯覺,都是錯覺

多選2. pearson』s product moment correlation coefficient 可用來判斷:

(1分)

x和y是否正相關

x和y是否負相關

x和y是否不相關

x和y之間的因果關係

單選3. 在box plots當中,乙個盒子越扁說明在該維度上:

(1分)

25%到75%之間的資料分布較為集中

25%到75%之間的資料分布較為分散

離群點較少

離群點較多

單選4. 適合視覺化高維資料的方法是:

(1分)

圓餅圖散點圖

平行座標

直方圖單選5. 資料視覺化工作:

(1分)

錦上添花,可有可無

不學就懂,一看就會

主要用於展示最終結果

貫穿資料探勘工作全過程

第二章第五節

熵衡量的是系統的不確定性,熵值越大(接近於1)說明系統的不確定性越低。

(1分)

正確錯誤

單選2. 假設某資料集的原始熵值為0.7, 已知某屬性的資訊增益為0.2,那麼利用該屬性進行劃分後資料集的熵值為:

(1分)

0.90.7

0.5

0.2單選3. 以下方法中可以確保獲得最優屬性子集的是:

(1分)

top k individual features

sequential forward selection

sequential backward selection

simulated annealing

exhaustive search

單選4. 關於分支定界法不正確的描述是:

(1分)

樹狀搜尋演算法

隨機搜尋演算法

依賴屬性的單調性假設

能夠減少搜尋空間

多選5. 進行屬性選擇的原因是:

(1分)

屬性可能存在冗餘

屬性可能存在雜訊

降低問題複雜度

個人喜好

特徵選擇與特徵提取的關係是:

(1分)

特徵提取包含特徵選擇

單選3. 在pca變換中,應盡量把資料向什麼方向投影:

(1分)

資料集中的方向

資料散布大的方向

資料分組特徵明顯的方向

平行於原始座標軸的方向

單選4. pca變換中不包含以下哪一種操作:

(1分)

去均值矩陣特徵值分解

屬性值標準化

座標變換

單選5. 假設樣本數大於維數,利用pca技術,可以把n維資料降到:

(1分)

只能到1維

只能到n-1維

1到n-1維

取決於樣本的類別數

如果將pca應用於帶標籤的分類資料:

(1分)

程式直接崩潰

效果槓槓的

驢唇不對馬嘴

視情況而定

單選2. lda與pca最本質的區別是:

(1分)

能夠降到的維數不同

計算效率不同

降維的目標不同

我讀書少,看不出來

單選3. 當樣本個數小於資料維數的時候,lda不能正常工作的原因是:

(1分)

類間散布矩陣不滿秩

類內散布矩陣不滿秩

計算量過高

fisher準則無意義

單選4. 當類中心重合的時候,lda不能正常工作的原因是:

(1分)

fisher準則函式分母為零

類內散布矩陣奇異

fisher準則函式恆等於零

類間散布矩陣滿秩

單選5. 對於二分類問題,lda只能將原始資料降到1維的原因是:

(1分)

類間散布矩陣秩為1

類內散布矩陣秩為1

原始資料維度過高

原始資料維度過低

單選6. 關於lda和pca投影方向描述正確的是:

(1分)

必然相同

必然不同

lda總是優於pca

世事難料

資料探勘筆記(一) 清華大學 資料探勘 理論與演算法

資料探勘筆記 一 本筆記在學習 清華大學 資料探勘 理論與演算法 時記錄 資料儲量急劇增加,在2000年後資料發生了從模擬到數字的顯著轉變。同時,算力也在大幅度增長。international conference on data mining international conference on...

資料探勘幕課第四章習題

如圖所示的感知機 閾值為0 實現的邏輯功能是 1分 或門與門 非門與非門 單選2.在感知機的判決函式中,w0的作用是 1分 為了後續學習演算法推導的方便 其實在實際中可以略去 控制判決平面到原點的距離 控制判決平面的方向 單選3.我們很難刻意忘掉乙個人的原因是 1分 記性好,沒辦法 刻骨銘心,矢志不...

清華大學中國創業者訓練營課程錄影

課程針對的人群是經過聚焦的 創業者 好友們可能不創業,但是你的好友的好友可能會創業 說只有民企才能拯救中國的未來 本著對中國負責的態度,分享這個內容 清華大學中國創業者訓練營課程全集 開營儀式 熊曉鴿 從gdp構成 傳媒技術變遷和國際資本流向看 第三極文化 文化產業發展和中國未來的發展機會 第一講 ...