資料探勘 資料

2021-08-21 04:43:56 字數 2308 閱讀 3384

對關注的屬性,樣本與原始資料集有相同的性質,則用抽樣計算的結果與全集是一樣。

1.1 抽樣的方法

- 1)簡單隨機抽樣(****** random sampling):放回、不放回

- 2)分層抽樣(stratified sampling):如果資料集不同型別的資料數量差異過大,則隨機抽樣會丟失數量少的樣本。可針對不同資料組,按比例抽取樣本。

- 3)漸進抽樣:樣本容量越大,準確性越高,計算沒有簡化;樣本容量越小,準確性越低,計算簡化。

當模型準確率不再隨樣本容量快速提公升,則達到了容量的平衡。

1.2 維規約

1.合併屬性減低屬性數,減少時間、空間複雜度。

2.1相似、相異是聚類、最近鄰分類、異常檢測的基本概念

相似similarity:兩個物件的相似程度的數值度量。

2.2相異度

1)距離:

歐幾里得距離:二維座標系裡有4個點,可以有用4*4的矩陣表示4個點的相對位置。

歐幾里得距離3個性質:

1.非負性:d(x,y)>=0,舉例肯定不能為負數。

2.對稱性:d(x,y)=d(y,x),即x->y的距離與y->x的距離相等。

3.三角不等式:d(x,z)<=d(x,y)+d(y,z)

滿足以上3個性質的稱為度量(metric)。

非度量的相異度:集合差、時間。

2.3臨近性度量的例子

1)二元資料的相似性度量

二元屬性:只有2個狀態的屬性,如0和1,true和false等。

假設x和y是2個物件,都由n個二元屬性構成。如客戶購物資料

x= y=

則: **漢明距離hamming distance:**2個等長字串相同位置上不同字元的個數。上例的為3。

簡單匹配係數smc:(****** matching coefficient)=(xy都為1的屬性+xy都為0的屬性)/n=(7+0)/10=0.7,認為都沒有也是匹配。

jaccard係數:=xy都為1的屬性/xy出現過的屬性總數=0/3=0。

2)余弦相似度(常用來分析文件相似性)

cos(x,y)=x*y/||x||||y||

x=(3,2,0,5,0,0,0,2,0,0)

y=(1,0,0,0,0,0,0,1,0,2)

x*y=3*1+2*0+…+0*0+0*2=5

||x||=power(3*3+2*2+…+0*0+0*0,1/2)=6.48

||y||=power(1*1+0*0+…+1*1+0*0,1/2)=2.45

cos(x,y)=0.32

x*y:對應維度的值乘積;

||x||:對應維度的值自己的乘積(平方)和

怎麼理解?用文件相似度理解,

1.x*y:同樣的單詞都出現且數值越大,則cos越大;

2.x*y:僅一方出現,則分子為0,cos小;

3.||x||||y||:分母是詞彙量的表示(類似方差);詞彙量很大,相同的越少,cos越小。

4.0<=cos<=1,兩篇相同的文章cos=1。

**3)歐幾里得距離:**square((x1-y1)^2+(x2-y2)^2+…+(xn-yn)^2) (類似三角形的a^2=b^2+c^2,各對應維度的差平方的和開方是n維空間的距離)

4)曼哈頓距離:|x1-y1|+|x2-y2|+…|xn-yn| (n維空間各維度距離的和)

故事:概念出自在曼哈頓街區開車從a點到b點,實際行駛距離不是ab的直線距離,是走街區的2個座標的距離差的和(xa-xa)+(ya-yb)。

5)閔可夫斯基距離(minkowski distance):因有可變引數p,所以是一組距離的定義。

d=square((x1-y1)^p+(x2-y2)^p+…+(xk-yk)^p,-p)。維度距離的p次方和,再p次方根。1次方是曼哈頓,2次方是歐式,p次方是閔距。

當p=1時,即為曼哈頓距離

當p=2時,即為歐式距離

當p->無窮時,切比雪夫距離。

類似歐式距離,不過平方改為p次方的和再開p次方根。

6)標準化歐式距離:各維距離除以方差(相當於各維的權重).

7)皮爾森相關:corr(x,y)=sxy/sxsy

SPSS Modeler資料探勘 資料探勘概述

資料探勘 是一種通過數理模式來分析大量資料,以找出不同的客戶或市場劃分,分析出消費者喜好和行為的方法。可以描述為 是按企業既定業務目標,對大量的企業資料進行探索和分析,揭示隱藏的 未知的 或驗證已知的規律性,並進一步將其模型化的先進的有效的方法。資料探勘 data mining 在技術上的定義是從大...

《R語言資料探勘》 1 3 資料探勘

1.3 資料探勘 資料探勘就是在資料中發現乙個模型,它也稱為探索性資料分析,即從資料中發現有用的 有效的 意想不到的且可以理解的知識。有些目標與其他科學,如統計學 人工智慧 機器學習和模式識別是相同的。在大多數情況下,資料探勘通常被視為乙個演算法問題。聚類 分類 關聯規則學習 異常檢測 回歸和總結都...

資料探勘入門系列 資料探勘基礎

伴隨著資訊化系統建設的發展,各行各業的中大型企業都儲存了大量的業務資料。很多的企業想要通過對這些資料的分析,來發現新的商機以及從這些資料中找到提高盈利的方法。大部分的企業,都是憑藉管理人員的自身個人經驗來開展這項工作。如果有一套系統,能夠自動地或者半自動地發現相關的知識和解決方案,這樣將會有效地提高...