資料預處理方法總結

資料是什麼？資料就是一組物件及其屬性的集合，其中屬性定義為物件的特徵或性質。真實資料在應用前基本都有經過預處理，以便在機器學習演算法中使用。本次資料預處理方法的總結是基於推薦系統設計進行展開的，其中包括相似度的度量方法、抽樣以及降維技術這三個尤為重要的問題。

d (x

,y)=

∑k=1

n(xk

−yk)

2}(x,y) = \sqrt ^n }

d(x,y)

=k=1

∑n(

xk−

yk)

2其中，n是維數（屬性數），xkxk

和yk

yk分別是資料物件x和y的第k個屬性值。 d(x

,y)=

(∑k=

1n∣x

k−yk

∣r)1

r}(x,y) = (\sum\limits_^n )^}

d(x,y)

=(k=

1∑n

∣xk

−yk

∣r)r

1其中，r是距離的度（引數）。取決於r值的不同，一般的閔可夫斯基距離有專用的名稱：

r=1,城市街區（也叫曼哈頓距離、計程車、l1範數）距離。

r=2,歐幾里得距離（l2範數）。

r=∞

\infty

∞,上確界（l

max⁡

l_lmax或l

∞l_\infty

l∞範數），這是任意維度物件屬性間的最大距離。 d(x

,y)=

(x−y

)σ−1

(x−y

}(x,y) = \sqrt (x - y)^t }

d(x,y)

=(x−

y)σ−

1(x−

y)t

其中，σ

\sigma

σ是資料的協方差矩陣。

cos⁡(x

,y)=

(x⋅y

)∥x∥

∥y

∥\cos (x,y) = \frac

cos(x,

y)=∥

x∥∥y

∥(x⋅

其中，dot表示向量的點積，∥x∥

∥x∥是向量x的長度。這個相似度稱為余弦相似度或l2範數。 pea

son(

x,y)

=∑(x

,y)σ

x×σy

peason(x,y) = \frac }

peason

(x,y

)=σx

×σy

∑(x

,y)

最後，在一些只有二進位制屬性的物品案例中，可以採用smc或jaccard係數的相似性度量方法。首先，計算m01、m10、m11和m00數量，其中m01表示x是0並且y是1這個屬性的數量，m10表示x是1並且y是0這個屬性的數量，依次類推。據此可計算出簡單匹配係數smc

=m11+

m00m01

+m10+

m00+m

11smc = \frac

smc=m0

1+m1

0+m0

0+m1

1m11

+m00

;jaccard係數jc=

m11m01

+m10+

m11

jc = \frac

jc=m01

+m10

+m11

m11

。廣義jaccard係數，是jc關於連續值屬性或計數屬性的乙個變型，d=x

⋅y∥x

∥2+∥

y∥2−

d = \frac

d=∥x∥2

+∥y∥

2−xy

x⋅y

抽樣的關鍵是發現具有整個原始資料集代表性的子集，也就是說，其具有與整個資料集大概類似的興趣屬性。最簡單的抽樣技術是隨機抽樣，任意物品被選中的概率相同。複雜的有在分層抽樣中資料基於特殊特徵被分成幾個部分，之後對每個部分進行隨機抽樣。

抽樣最常應用的場景是分離訓練集和測試集，比如80/20的比例，並使用不放回的標準隨機抽樣。抽樣可以重複多次，比如k折交叉驗證，當然除非資料集足夠大，否則交叉驗證可能不可信。

主成分分析可以獲得一組有序的成分列表，其根據最小平方誤差計算出變化最大的值。列表中第乙個成分所代表的變化量要比第二個成分所代表的變化量大，依次類推，可以通過忽略這些變化貢獻較小的成分來降低維度。

pca的限制：pca依賴於以先行合併為基礎的經驗資料集，儘管一般的非線性pca方法已經提出。pca的另乙個重要假設是原始資料集是從高斯分布中抽取出來的，當這個假設不正確時，就無法保證主要成分的有效性。

資料探勘中採集的資料可能會有各種雜訊，如缺失資料或異常資料。去噪是非常重要的預處理步驟，其目的是在最大化資訊量時去掉不必要的影響。

一般意義上，雜訊定義為在資料收集階段收集到的一些可能影響資料分析和解釋結果的偽造資料，分為自然和惡意雜訊。前者時使用者在選擇偏好時無意產生的，後者是為了偏離結果在系統中故意引入的。

資料預處理方法總結

資料預處理方法總結

資料預處理方法 總結

資料預處理方法

相關推薦

資料預處理方法總結