第十一期 資料探勘其實就是為了幹這四種事?

2021-09-28 11:44:52 字數 2841 閱讀 5128

資料探勘主要側重解決四類問題:分類、聚類、關聯、**。資料探勘非常清晰的界定了它所能解決的幾類問題。這是乙個高度的歸納,資料探勘的應用就是把這幾類問題演繹的乙個過程。

資料探勘最重要的要素是分析人員的相關業務知識和思維模式。一般來說,資料探勘主要側重解決四類問題:分類、聚類、關聯、**。資料探勘非常清晰的界定了它所能解決的幾類問題。這是乙個高度的歸納,資料探勘的應用就是把這幾類問題演繹的乙個過程。

一、分類問題

分類問題屬於**性的問題,但是它跟普通**問題的區別在於其**的結果是類別(如a、b、c三類)而不是乙個具體的數值(如55、65、75……)。

舉個栗子:你和朋友在路上走著,迎面走來乙個人,你對朋友說:我猜這個人是個上海人,那麼這個問題就屬於分類問題;如果你對朋友說:我猜這個人的年齡在30歲左右,那麼這個問題就屬於後面要說到的**問題。

有一種很特殊的分類問題,那就是「二分」問題,顯而易見,「二分」問題意味著**的分類結果只有兩個類:如是/否;好/壞;高/低……;這類問題也稱為0/1問題。之所以說它很特殊,主要是因為解決這類問題時,我們只需關注**屬於其中一類的概率即可,因為兩個類的概率可以互相推導。如**x=1的概率為p(x=1),那麼x=0的概率p(x=0)=1-p(x=1),這一點是非常重要的。

可能很多人已經在關心資料探勘方法是怎麼**p(x=1)這個問題的了,其實並不難。解決這類問題的乙個大前提就是通過歷史資料的收集,已經明確知道了某些使用者的分類結果。

例如已經收集到了10000個使用者的分類結果,其中7000個是屬於「1」這類;3000個屬於「0」這類。伴隨著收集到分類結果的同時,還收集了這10000個使用者的若干特徵(指標、變數)。這樣的資料集一般在資料探勘中被稱為訓練集,顧名思義,分類**的規則就是通過這個資料集訓練出來的。

訓練的思路大概是這樣的:對所有已經收集到的特徵/變數分別進行分析,尋找與目標0/1變數相關的特徵/變數,然後歸納出p(x=1)與篩選出來的相關特徵/變數之間的關係(不同方法歸納出來的關係的表達方式是各不相同的,如回歸的方法是通過函式關係式,決策樹方法是通過規則集)。

二、聚類問題

聚類問題不屬於**性的問題,它主要解決的是把一群物件劃分成若干個組的問題。劃分的依據是聚類問題的核心。所謂「物以類聚,人以群分」,故得名聚類。

聚類問題容易與分類問題混淆,主要是語言表達的原因,因為我們常說這樣的話:「根據客戶的消費行為,我們把客戶分成三個類,***個類的主要特徵是……」,實際上這是乙個聚類問題,但是在表達上容易讓我們誤解為這是個分類問題。

分類問題與聚類問題是有本質區別的:分類問題是**乙個未知類別的使用者屬於哪個類別(相當於做單選題),而聚類問題是根據選定的指標,對一群使用者進行劃分(相當於做開放式的論述題),它不屬於**問題。

聚類問題在商業案例中也是乙個非常常見的,例如需要選擇若干個指標(如價值、成本、使用的產品等)對已有的使用者群進行劃分:特徵相似的使用者聚為一類,特徵不同的使用者分屬於不同的類。

聚類的方法層出不窮,基於使用者間彼此距離的長短來對使用者進行聚類劃分的方法依然是當前***的方法。大致的思路是這樣的:

1.首先確定選擇哪些指針對使用者進行聚類;

2.然後在選擇的指標上計算使用者彼此間的距離,距離的計算公式很多,最常用的就是直線距離(把選擇的指標當作維度、使用者在每個指標下都有相應的取值,可以看作多維空間中的乙個點,使用者彼此間的距離就可理解為兩者之間的直線距離);

3.***聚類方法把彼此距離比較短的使用者聚為一類,類與類之間的距離相對比較長。

如需了解細節,請查閱:聚類分析、系統聚類、k-means聚類、歐氏距離、馬氏距離等知識。

三、關聯問題

說起關聯問題,可能要從「啤酒和尿布」說起了。有人說啤酒和尿布是沃爾瑪超市的乙個經典案例,也有人說,是為了宣傳資料探勘/資料倉儲而編造出來的虛構的「託」。不管如何,「啤酒和尿布」給了我們乙個啟示:世界上的萬事萬物都有著千絲萬縷的聯絡,我們要善於發現這種關聯。

關聯分析要解決的主要問題是:

可能是由於最初關聯分析主要是在超市應用比較廣泛,所以又叫「購物籃分析」,英文簡稱為mba,當然此mba非彼mba,意為market basket analysis。

如果在研究的問題中,乙個使用者購買的所有產品假定是同時一次性購買的,分析的重點就是所有使用者購買的產品之間關聯性;如果假定乙個使用者購買的產品的時間是不同的,而且分析時需要突出時間先後上的關聯,如先買了什麼,然後後買什麼?那麼這類問題稱之為序列問題,它是關聯問題的一種特殊情況。從某種意義上來說,序列問題也可以按照關聯問題來操作。

關聯分析有三個非常重要的概念,那就是「三度」:支援度、可信度、提公升度。假設有10000個人購買了產品,其中購買a產品的人是1000個,購買b產品的人是2000個,ab同時購買的人是800個。

四、**問題

此處說的**問題指的是狹義的**,並不包含前面闡述的分類問題,因為分類問題也屬於**。一般來說我們談**問題主要指**變數的取值為連續數值型的情況。

例如天氣預報**明天的氣溫、國家**下一年度的gdp增長率、電信運營商**下一年的收入、使用者數等?

**問題的解決更多的是採用統計學的技術,例如回歸分析和時間序列分析。回歸分析是一種非常古典而且影響深遠的統計方法,最早是由達爾文的表弟高爾頓在研究生物統計中提出來的方法,它的主要目的是研究目標變數與影響它的若干相關變數之間的關係,通過擬和類似y=ax1+bx2+……的關係式來揭示變數之間的關係。通過這個關係式,在給定一組x1、x2……的取值之後就可以**未知的y值。

相對來說,用於**問題的回歸分析在商業中的應用要遠遠少於在醫學、心理學、自然科學中的應用。最主要的原因是後者是更偏向於自然科學的理論研究,需要有理論支援的實證分析,而在商業統計分析中,更多的使用描述性統計和報表去揭示過去發生了什麼,或者是應用性更強的分類、聚類問題。

閱讀目錄(置頂)(長期更新計算機領域知識)

閱讀目錄(置頂)(長期更新計算機領域知識)

第十一講 資料清洗

資料採集完,要進行資料清洗工作,整個資料分析過程中,資料清洗工作幾乎要佔到80 的時間。資料清洗規則總結為四個關鍵點 完全合一 1 完整性 單條資料是否存在空值,統計的字段是否完善。2 全面性 觀察某一列的全部數值,比如平均值 最大值 最小值,根據常識判斷是否有問題。如 資料定義 單位標識 數值本身...

第十一章,插入資料

insert into 表名 values 這種方法沒有明確的指出要插入資料對應的列,所以儲存到每個表列中的資料在values 子句中給出,對每一列必須提供乙個值 insert into 表名 列名.values 值.這種方法因為提供了列名,所以values 必須以其指定的次序匹配指定的列名,不一定...

大家一起來程式設計第十一期

題目 36塊磚,36人搬,男搬4,女搬3,小孩2人搬一磚,問 男 女 小孩給若干?我的回答 這個實際上就是另乙個百雞問題,多元方程問題。使用多重迴圈就可以解出。這個問題只有單解。語言 c 編輯器 sharpdevelop 1.03 環境 windows server 2003,framework 1...