1.某超市研究銷售紀錄資料後發現,買啤酒的人很大概率也會購買尿布,這種屬於資料探勘的哪類問題?a.關聯規則發現
b.聚類
c.分類
d.自然語言處理
2.以下兩種描述分別對應哪兩種對分類演算法的評價標準?
(a)警察抓小偷,描述警察抓的人中有多少個是小偷的標準。
(b)描述有多少比例的小偷給警察抓了的標準。
a.precision,recall
b.recall,precision
c.precision,roc
d.recall,roc
3.將原始資料進行整合、變換、維度規約、數值規約是在以下哪個步驟的任務?
a.頻繁模式挖掘
b.分類和**
c.資料預處理
d.資料流挖掘
4.當不知道資料所帶標籤時,可以使用哪種技術促使帶同類標籤的資料與帶其他標籤的資料相分離?
a.分類
b.聚類
c.關聯分析
d.隱馬爾可夫鏈
5.什麼是kdd?
a.資料探勘與知識發現
b.領域知識發現
c.文件知識發現
d.動態知識發現
6.使用互動式的和視覺化的技術,對資料進行探索屬於資料探勘的哪一類任務?
a.探索性資料分析
b.建模描述
c.**建模
d.尋找模式和規則
7.為資料的總體分布建模;把多維空間劃分成組等問題屬於資料探勘的哪一類任務?
a.探索性資料分析
b.建模描述
c.**建模
d.尋找模式和規則
8.建立乙個模型,通過這個模型根據已知的變數值來**其他某個變數值屬於資料探勘的哪一類任務?
a.根據內容檢索
b.建模描述
c.**建模
d.尋找模式和規則
9.使用者有一種感興趣的模式並且希望在資料集中找到相似的模式,屬於資料探勘哪一類任務?
a.根據內容檢索
b.建模描述
c.**建模
d.尋找模式和規則
10.以下屬於可伸縮聚類演算法的是。
a、cure
b、denclue
c、clique
d、opossum
11.下面哪種不屬於資料預處理的方法?
a 變數代換
b 離散化
c 聚集
d估計遺漏值
12.假設12個銷售**記錄組已經排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每種方法將它們劃分成四個箱。等頻(等深)劃分時,15在第幾個箱子內?
a 第乙個
b 第二個
c 第三個
d 第四個
13.上題中,等寬劃分時(寬度為50),15又在哪個箱子裡?
a 第乙個
b 第二個
c 第三個
d 第四個
14.下面哪個不屬於資料的屬性型別:
a 標稱
b 序數
c 區間
d 相異
15.在上題中,屬於定量的屬性型別是:
a 標稱
b 序數
c 區間
d 相異
16.只有非零值才重要的二元屬性被稱作:
a 計數屬性
b 離散屬性
c 非對稱的二元屬性
d 對稱屬性
17.以下哪種方法不屬於特徵選擇的標準方法:
a 嵌入
b 過濾
c 包裝
d 抽樣
a 特徵提取
b 特徵修改
c 對映資料到新的空間
d 特徵構造
19.考慮值集,其截斷均值(p=20%)是
a 2b 3
c 3.5
d 520.下面哪個屬於對映資料到新的空間的方法?
a 傅利葉變換
b 特徵加權
c 漸進抽樣
d 維歸約
21.熵是為消除不確定性所需要獲得的資訊量,投擲均勻正六面體骰子的熵是:
a1 位元
b 2.6位元
c 3.2位元
d 3.8位元
22.假設屬性income的最大最小值分別是12000元和98000元。利用最大最小規範化的方法將屬性的值對映到0至1的範圍內。對屬性income的73600元將被轉化為:
a 0.821
b 1.224
c 1.458
d 0.716
23.假定用於分析的資料報含屬性age。資料元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,問題:使用按箱平均值平滑方法對上述資料進行平滑,箱的深度為3。第二個箱子值為:
a 18.3
b 22.6
c 26.8
d 27.9
24.考慮值集,其四分位數極差是:
a 31
b 24
c 55
d 325.一所大學內的各年級人數分別為:一年級200人,二年級160人,三年級130人,四年級110人。則年級屬性的眾數是:
a 一年級
b 二年級
c 三年級
d 四年級
26.下列哪個不是專門用於視覺化時間空間資料的技術:
a 等高線圖
b 餅圖
c 曲面圖
d 向量場圖
27.在抽樣方法中,當合適的樣本容量很難確定時,可以使用的抽樣方法是:
a 有放回的簡單隨機抽樣
b 無放回的簡單隨機抽樣
c 分層抽樣
d 漸進抽樣
28.資料倉儲是隨著時間變化的,下面的描述不正確的是
a.資料倉儲隨時間的變化不斷增加新的資料內容;
b.捕捉到的新資料會覆蓋原來的快照;
c.資料倉儲隨事件變化不斷刪去舊的資料內容;
d.資料倉儲中包含大量的綜合資料,這些綜合資料會隨著時間的變化不斷地進行重新綜合.
29.關於基本資料的元資料是指:
a.基本元資料與資料來源,資料倉儲,資料集市和應用程式等結構相關的資訊;
b.基本元資料報括與企業相關的管理方面的資料和資訊;
c.基本元資料報括日誌檔案和簡歷執行處理的時序排程資訊;
d.基本元資料報括關於裝載和更新處理,分析處理以及管理方面的資訊
30.下面關於資料粒度的描述不正確的是:
a.粒度是指資料倉儲小資料單元的詳細程度和級別;
b.資料越詳細,粒度就越小,級別也就越高;
c.資料綜合度越高,粒度也就越大,級別也就越高;
d.粒度的具體劃分將直接影響資料倉儲中的資料量以及查詢質量.
31.有關資料倉儲的開發特點,不正確的描述是:
a.資料倉儲開發要從資料出發;
b.資料倉儲使用的需求在開發出去就要明確;
c.資料倉儲的開發是乙個不斷迴圈的過程,是啟發式的開發;
d.在資料倉儲環境中,並不存在操作型環境中所固定的和較確切的處理流,資料倉儲中資料分析和處理更靈活,且沒有固定的模式
32.在有關資料倉儲測試,下列說法不正確的是:
a.在完成資料倉儲的實施過程中,需要對資料倉儲進行各種測試.測試工作中要包括單元測試和系統測試.
b.當資料倉儲的每個單獨元件完成後,就需要對他們進行單元測試.
c.系統的整合測試需要對資料倉儲的所有元件進行大量的功能測試和回歸測試.
d.在測試之前沒必要制定詳細的測試計畫.
33.olap技術的核心是:
b.對使用者的快速響應;
c.互操作性.
d.多維分析;
34.關於olap的特性,下面正確的是:
(1)快速性(2)可分析性(3)多維性(4)資訊性(5)共享性
a.(1)(2)(3)
b.(2)(3)(4)
c.(1)(2)(3)(4)
d.(1)(2)(3)(4)(5)
35.關於olap和oltp的區別描述,不正確的是:
a.olap主要是關於如何理解聚集的大量不同的資料.它與otap應用程式不同.
b.與olap應用程式不同,oltp應用程式包含大量相對簡單的事務.
c.olap的特點在於事務量大,但事務內容比較簡單且重複率高.
d.olap是以資料倉儲為基礎的,但其最終資料**與oltp一樣均來自底層的資料庫系統,兩者面對的使用者是相同的.
36.olam技術一般簡稱為」資料聯機分析挖掘」,下面說法正確的是:
a.olap和olam都基於客戶機/伺服器模式,只有後者有與使用者的互動性;
b.由於olam的立方體和用於olap的立方體有本質的區別.
c.基於web的olam是web技術與olam技術的結合.
d.olam伺服器通過使用者圖形藉口接收使用者的分析指令,在元資料的知道下,對超級立方體作一定的操作.
37.關於olap和oltp的說法,下列不正確的是:
a.olap事務量大,但事務內容比較簡單且重複率高.
b.olap的最終資料**與oltp不一樣.
c.oltp面對的是決策人員和高層管理人員.
d.oltp以應用為核心,是應用驅動的.
38.設x=是頻繁項集,則可由x產生____個關聯規則。
a、4b、5
c、6d、7
39.頻繁項集、頻繁閉項集、最大頻繁項集之間的關係是:
a、頻繁項集頻繁閉項集=最大頻繁項集
b、頻繁項集=頻繁閉項集最大頻繁項集
c、頻繁項集頻繁閉項集最大頻繁項集
d、頻繁項集=頻繁閉項集=最大頻繁項集
40.概念分層圖是____圖。
a、無向無環
b、有向無環
c、有向有環
d、無向有環
答案:aacba, abcaa,
dbadc, cdbca,
bdaaa, bdcdc,
adddc, daccb
機器學習python分類演算法
from pandas import read csv from sklearn.linear model import linearregression from sklearn.linear model import logisticregression from sklearn.model s...
Python遷移學習 機器學習演算法
終有一天,人工智慧會像我們看待非洲平原上低階生物的化石一樣看待我們。在人工智慧眼中,人類只是直立行走的猿猴,用著粗糙的語言和簡陋的工具,從誕生起就注定會滅絕。電影 機械姬 機器學習是人工智慧中乙個流行的子領域,其涉及的領域非常廣泛。流行的原因之一是在其策略下有乙個由複雜的演算法 技術和方 組成的綜合...
機器學習與深度學習相關演算法的學習
本人打算開始總結機器學習和深度學習的系列部落格了。以下是要總結的相關演算法的內容了,只是梗概,後期會做調整的。1 supervised technique classifications k nearest neighbour k 近鄰 bayes classification trees cart...