資料探勘課程 備考1

2021-10-06 14:37:27 字數 2992 閱讀 6917

[資料倉儲的開發流程](和資料庫的比較相似,因此本文僅就其中區別進行分析。

下圖為資料倉儲的開發流程:

較之資料庫系統開發,資料倉儲開發只多出etl工程部分。然而這一部分極有可能是整個資料倉儲開發流程中最為耗時耗資源的乙個環節。因為該環節要整理各大業務系統中雜亂無章的資料並協調元資料上的差別,所以工作量很大。在很多公司都專門設有etl工程師這樣的崗位,大的公司甚至專門聘請etl專家。

資料倉儲測試

olap和oltp

1、適用人員不同:oltp主要供基層人員使用,進行一線業務操作。olap則是探索並挖掘資料價值,作為企業高層進行決策的參考。

2、面向內容不同:oltp面向應用,olap面向主題;

4、資料特點不同:oltp的資料特點是當前的、最新的、細節的, 二維的、分立的;而oltp則是歷史的, 聚集的, 多維的,整合的, 統一的;

5、訪問能力不同:oltp可以讀/寫數十條記錄,而olap則可以讀上百萬條記錄;

6、工作事件的複雜度不同:oltp執行的是簡單的事務,而olap執行的是複雜任務;

7、可承載使用者數量不同:oltp的可承載使用者數量為上千個,而olap則是上百萬個;

8、db大小不同:oltp的db 大小為100gb,而olap則可以達到100tb;

9、執行時間要求不同:oltp具有實時性,olap對時間的要求不嚴格。

頻繁項集------->產生強關聯規則的過程

1.由apriori演算法(當然別的也可以)產生頻繁項集

2.根據選定的頻繁項集,找到它所有的非空子集

3.強關聯規則需要滿足最小支援度和最小置性度 (假設關聯規則是:a=>b , support(a=>b)= confidence(a=>b)=p(b|a)= 。這裡求概率都可以替換為求支援度計數(就是統計在源資料表中各個出現的次數,例如:p(aub) 就找a和b在源資料表中同時發生了多少次)

4.找到所有可能性的關聯規則。例如:頻繁項集為: -------->非空子集則為:,,,,,---------->可能的關聯規則為:=>3 , =>2 , =>2 , 1=>,2=>,3=>

首先要明白兩個定理(k項集為頻繁k項集時,則k-1也必為頻繁集):

1、連線定理:若有兩個k-1項集,每個項集按照「屬性-值」(一般按值)的字母順序進行排序。如果兩個k-1項集的前k-2個項相同,而最後一 個項不同,則證明它們是可連線的,即這個k-1項集可以聯姻,即可連線生成k項集。如:有兩個3項集{a, b, c},這兩個3項集就是可連線的,它們可以連線生成4項集{a, b, c, d};兩個3項集{a, b, c}{a, d, e},這兩個3項集顯示是不能連線生成3項集的。

2、頻繁子集定理:若乙個項集的子集不是頻繁項集,則該項集肯定也不是頻繁項集。若存在3項集{a, b, c},如果它的2項子集{a, b}的支援度即同時出現的次數達不到閾值,則{a, b, c}同時出現的次數顯然也是達不到閾值的。

二、聚類演算法分類

1.基於劃分

給定乙個有n個元組或者紀錄的資料集,**法將構造k個分組,每乙個分組就代表乙個聚類,k2.基於層次

對給定的資料集進行層次似的分解,直到某種條件滿足為止。具體又可分為「自底向上」和「自頂向下」兩種方案。

特點:較小的計算開銷。然而這種技術不能更正錯誤的決定。

演算法:birch演算法、cure演算法、chameleon演算法

3.基於密度

只要乙個區域中的點的密度大過某個閾值,就把它加到與之相近的聚類中去。

特點:能克服基於距離的演算法只能發現「類圓形」的聚類的缺點。

演算法:dbscan演算法、optics演算法、denclue演算法

k均值和dbscan比較

為了簡化比較,

我們假定對於k均值和dbscan都沒有距離的限制,並且dbscan總是將與若干個核心點相關聯的邊界點指派到最近的核心點。

k均值和dbscan都是將每個物件指派到單個簇的劃分聚類演算法,

但是k均值一般聚類所有物件,而dbscan丟棄被它識別為雜訊的物件。

k均值使用簇的基於原型的概念,而dbscan使用基於密度的概念。

k均值很難處理非球形的簇和不同大小的簇。dbscan可以處理不同大小或形狀的簇,並且不太受雜訊和離群點的影響。當簇具有很不相同的密度時,兩種演算法的效能都很差。

k均值只能用於具有明確定義的質心(比如均值或中位數)的資料。dbscan要求密度定義(基於傳統的歐幾里得密度概念)對於資料是有意義的。

k均值可以用於稀疏的高維資料,如文件資料。dbscan通常在這類資料上的效能很差,因為對於高維資料,傳統的歐幾里得密度定義不能很好處理它們。

k均值和dbscan的最初版本都是針對歐幾里得資料設計的,但是它們都被擴充套件,以便處理其他型別的資料。

基本k均值演算法等價於一種統計聚類方法(混合模型),假定所有的簇都來自球形高斯分布,具有不同的均值,但具有相同的協方差矩陣。dbscan不對資料的分布做任何假定。

k均值dbscan和都尋找使用所有屬性的簇,即它們都不尋找可能只涉及某個屬性子集的簇。

k均值可以發現不是明顯分離的簇,即便簇有重疊也可以發現,但是dbscan會合併有重疊的簇。

k均值演算法的時間複雜度是o(m),而dbscan的時間複雜度是o(m^2),除非用於諸如低維歐幾里得資料這樣的特殊情況。

dbscan多次執行產生相同的結果,而k均值通常使用隨機初始化質心,不會產生相同的結果。

dbscan自動地確定簇個數,對於k均值,簇個數需要作為引數指定。然而,dbscan必須指定另外兩個引數:eps(鄰域半徑)和minpts(最少點數)。

7.2(13.) k均值聚類可以看作優化問題,即最小化每個點到最近質心的誤差平方和,並且可以看作一種統計聚類(混合模型)的特例。dbscan不基於任何形式化模型。

來自《資料探勘導論》[美]pang-ning tan,michael steinbach,vipin kumar 著 page355-356

資料探勘1

資料探勘過程的方 其中比較經典的是crisp dm cross industrystandard process for data mining,跨行業資料探勘標準流程 其中一共分為6個步驟 商業理解,資料理解,資料準備,建模,評估,發布。統計學習劃分為兩種型別 有 監督學習,無監督學習 有監督學習...

資料探勘 1

資料倉儲技術包括資料清理 資料整合和聯機分析處理 olap olap是一種分析技術,具有彙總,合併和聚集功能,以及從不同的角度觀察資訊的能力。但,對於深層次的分析,如資料分類,聚類和資料隨時間變化的特徵,仍然需要其他 分析工具。儘管市場上已有許多 資料探勘系統 但是並非所有的 都能進行真正的資料探勘...

datawhale資料探勘課程 任務二

特徵衍生 在實際工作中,自己用到的是特徵公升維,即one hot encoding。另一種特徵衍生方法是特徵組合,比如拼接年齡 收入區間成為乙個新特徵,但是在金融行業一般不這麼做 因為可解釋性差容易不符合監管要求。計算iv函式。在機器學習的二分類問題中,iv值 information value 主...