資料探勘資料

對關注的屬性，樣本與原始資料集有相同的性質，則用抽樣計算的結果與全集是一樣。

1.1 抽樣的方法

- 1)簡單隨機抽樣(****** random sampling)：放回、不放回

- 2)分層抽樣(stratified sampling)：如果資料集不同型別的資料數量差異過大，則隨機抽樣會丟失數量少的樣本。可針對不同資料組，按比例抽取樣本。

- 3)漸進抽樣:樣本容量越大，準確性越高，計算沒有簡化；樣本容量越小，準確性越低，計算簡化。

當模型準確率不再隨樣本容量快速提公升，則達到了容量的平衡。

1.2 維規約

1.合併屬性減低屬性數，減少時間、空間複雜度。

2.1相似、相異是聚類、最近鄰分類、異常檢測的基本概念

相似similarity：兩個物件的相似程度的數值度量。

2.2相異度

1)距離：

歐幾里得距離：二維座標系裡有4個點，可以有用4*4的矩陣表示4個點的相對位置。

歐幾里得距離3個性質：

1.非負性：d(x,y)>=0，舉例肯定不能為負數。

2.對稱性：d(x,y)=d(y,x)，即x->y的距離與y->x的距離相等。

3.三角不等式：d(x,z)<=d(x,y)+d(y,z)

滿足以上3個性質的稱為度量(metric)。

非度量的相異度：集合差、時間。

2.3臨近性度量的例子

1)二元資料的相似性度量

二元屬性：只有2個狀態的屬性，如0和1，true和false等。

假設x和y是2個物件，都由n個二元屬性構成。如客戶購物資料

x= y=

則： **漢明距離hamming distance：**2個等長字串相同位置上不同字元的個數。上例的為3。

簡單匹配係數smc：（****** matching coefficient）=(xy都為1的屬性+xy都為0的屬性)/n=(7+0)/10=0.7，認為都沒有也是匹配。

jaccard係數：=xy都為1的屬性/xy出現過的屬性總數=0/3=0。

2)余弦相似度（常用來分析文件相似性）

cos(x,y)=x*y/||x||||y||

x=(3,2,0,5,0,0,0,2,0,0)

y=(1,0,0,0,0,0,0,1,0,2)

x*y=3*1+2*0+…+0*0+0*2=5

||x||=power(3*3+2*2+…+0*0+0*0,1/2)=6.48

||y||=power(1*1+0*0+…+1*1+0*0,1/2)=2.45

cos(x,y)=0.32

x*y:對應維度的值乘積；

||x||:對應維度的值自己的乘積（平方）和

怎麼理解？用文件相似度理解，

1.x*y:同樣的單詞都出現且數值越大，則cos越大；

2.x*y:僅一方出現，則分子為0，cos小；

3.||x||||y||:分母是詞彙量的表示(類似方差）；詞彙量很大，相同的越少，cos越小。

4.0<=cos<=1，兩篇相同的文章cos=1。

**3)歐幾里得距離：**square((x1-y1)^2+(x2-y2)^2+…+(xn-yn)^2) （類似三角形的a^2=b^2+c^2,各對應維度的差平方的和開方是n維空間的距離）

4)曼哈頓距離：|x1-y1|+|x2-y2|+…|xn-yn| (n維空間各維度距離的和)

故事：概念出自在曼哈頓街區開車從a點到b點，實際行駛距離不是ab的直線距離，是走街區的2個座標的距離差的和(xa-xa)+(ya-yb)。

5)閔可夫斯基距離(minkowski distance):因有可變引數p，所以是一組距離的定義。

d=square((x1-y1)^p+(x2-y2)^p+…+(xk-yk)^p,-p)。維度距離的p次方和，再p次方根。1次方是曼哈頓，2次方是歐式，p次方是閔距。

當p=1時，即為曼哈頓距離

當p=2時，即為歐式距離

當p->無窮時，切比雪夫距離。

類似歐式距離，不過平方改為p次方的和再開p次方根。

6)標準化歐式距離：各維距離除以方差（相當於各維的權重）.

7)皮爾森相關：corr(x,y)=sxy/sxsy

SPSS Modeler資料探勘資料探勘概述

資料探勘是一種通過數理模式來分析大量資料，以找出不同的客戶或市場劃分，分析出消費者喜好和行為的方法。可以描述為是按企業既定業務目標，對大量的企業資料進行探索和分析，揭示隱藏的未知的或驗證已知的規律性，並進一步將其模型化的先進的有效的方法。資料探勘 data mining 在技術上的定義是從大...

《R語言資料探勘》 1 3 資料探勘

1.3 資料探勘資料探勘就是在資料中發現乙個模型，它也稱為探索性資料分析，即從資料中發現有用的有效的意想不到的且可以理解的知識。有些目標與其他科學，如統計學人工智慧機器學習和模式識別是相同的。在大多數情況下，資料探勘通常被視為乙個演算法問題。聚類分類關聯規則學習異常檢測回歸和總結都...

資料探勘入門系列資料探勘基礎

伴隨著資訊化系統建設的發展，各行各業的中大型企業都儲存了大量的業務資料。很多的企業想要通過對這些資料的分析，來發現新的商機以及從這些資料中找到提高盈利的方法。大部分的企業，都是憑藉管理人員的自身個人經驗來開展這項工作。如果有一套系統，能夠自動地或者半自動地發現相關的知識和解決方案，這樣將會有效地提高...

資料探勘 資料

SPSS Modeler資料探勘 資料探勘概述

《R語言資料探勘》 1 3 資料探勘

資料探勘入門系列 資料探勘基礎

相關推薦

資料探勘資料

SPSS Modeler資料探勘資料探勘概述

資料探勘入門系列資料探勘基礎