資料探勘裡的「降維」 從五階魔方的玩法思考

2021-09-04 01:59:14 字數 1216 閱讀 4256

上一周去聽了宮老師的k-nn,及神經網路的演算法課程。這一周本來準備深入研究一下,回來後,看到同事桌上的魔方,就開始還原了起來。實際上,從魔方的角度來思考我們資料探勘裡的一些演算法,發現,另有一番收穫。

先說魔方,實際上,從三階往上來說,無論是四階,五階還是更高。其中的口訣很多,但是最根本的思想就是「降維」。就是把更高階的魔方降到我們熟悉的低階魔方,然後按照我們曾經的熟悉的方法來還原的。而對於資料探勘,好像也是這樣。魔方從高階降維到三階需要很長時間,而我們所需要挖掘的資料開始的資料準備及資料理解也是需要很大量的工作的。而所要建立的模型大部分就類似於我們經常玩的「三階魔方」。把我們加工好的資料放入「三階模型」裡,就可以套用相應的演算法公式來進行相應的分類。實際上,這兩者有許多共同之處。

k-nn,k-means這兩個演算法都是以k為中心值然後通過計算周圍數值的平均值,來均方差來估算最大的可能。這一方面有點類似於我們如何在魔方中以一面的中心點開始如何先將一面還原,繼而再去還原其他的面。裡邊的數學公式的推導是很繁雜。但是我們只要掌握住演算法是做什麼的,知道個大概就能夠從原始的資料中找到那個相應的k值。

我們在用數學統計裡很多的模型是要用到三維的向量空間座標系,而我們實際的資料裡有許多的維度。如何能夠在我們圖中來分出相應的引數,找到相應的座標點,這是很重要的。比如說,在我們統計資料裡,有省份,性別,投資類別這樣的字元型資料,在三維的座標中,也許我們用數值來表示更容易區分,而這裡如何用數值來表達就很重要!性別好說,男可以為1,女可以為0,而省份,投資類別這因的資料,我們是人為指定1表示上海,2表示北京........這些的指定就不好說了。首先,人為指定有些麻煩,更況且這些指標是否影響到挖掘結果。這個我們無從得知!

再反過來看魔方的玩法,在高階中(如五階),在中心6面對齊的前提下,通過先對齊稜的方法,使其「降維」為三階魔方。我們是否也可以用這樣的思想,先將這些數值型字元歸成大類,然後再在我們三維座標上標出其實際座標點,再去分析。

資料探勘裡,一直強調的是挖掘思維,而不是挖掘演算法。但是挖掘演算法又是我們無法避開的環節,有時也在想,對於乙個不懂統計的人來說,如何來理解這些演算法,也許並不那麼重要,重要的是我們要如何去使用。在**挖掘專案中,我們在統計使用者的上網行為的時候,總是會有許多的引數來供我們分析,這些許多的引數就像那些高階魔方一樣,我們如何將之「降維」為我們所熟悉的三階魔方,然後對我們的使用者進行相應分類。這樣,也許是**運營最為關係的。

從營銷的角度來思考我們挖掘演算法,大道至簡,用簡單的方法去挖掘出我們要有的目標客戶,進而有相關的精準營銷。也許這才是我們資料探勘的根本意義。這樣,也便於向決策層講明我們的技術實現過程。

資料探勘學習 LASSO降維

1.前言 今天碰到了多項式回歸以及正則化降維的知識點,還沒有全部搞懂,略微寫寫現在自己的理解,理解有錯誤多多包涵。2.背景 再我們的實際處理資料中,我們會碰到很多高維的資料。這些高維的資料意思就是樣本基數n要遠小於資料維度p。這種情況就會叫做維災難。維災難也會很容易導致另乙個我們機器學習裡面很嚴重的...

機器學習(五)PCA資料降維

pca資料降維 一 pca 相關理論 pca演算法又稱主成分分析,是一種分析 簡化資料集的技術。主成分分析經常用於減少資料集的 維數,同時保持資料集中的對方差貢獻最大的特徵。pca 的數學定義是 乙個 正交化線性變換,把資料變換到乙個新的座標系統中,使得這一資料的任何投影的第一大方差在第乙個座標 稱...

pca降維的基本思想 大資料培訓 PCA降維

pca principal component analysis,主成分分析 在高維向量空間中,隨著維度的增加,資料呈現出越來越稀疏的分布特點,增加後續演算法的複雜度,而很多時候雖然資料維度較高,但是很多維度之間存在相關性,他們表達的資訊有重疊。pca的思想是將n維特徵對映到k維上 k這k維特徵稱為...