資料探勘概述

2021-06-20 02:17:34 字數 2762 閱讀 9185

資料探勘最重要的要素是分析人員的相關業務知識和思維模式。豐富的業務知識是設計有效的相關變數的必要條件,而分析人員的思維模式從另外乙個方面也保障了設計變數的結構化和完整性。所以我們在掌握豐富的業務知識同時,如果能夠按照正確的思維模式去思考問題,將會發現解決問題並不是很困難的。

一般來說,資料探勘主要側重解決四類問題:分類、聚類、關聯、**。資料探勘非常清晰的界定了它所能解決的幾類問題。這是乙個高度的歸納,資料探勘的應用就是把這幾類問題演繹的乙個過程。下面讓我們來看看它所解決的四類問題是如何界定的:

1、分類問題

分類問題屬於**性的問題,但是它跟普通**問題的區別在於其**的結果是類別(如a、b、c三類)而不是乙個具體的數值(如55、65、75……)。

舉個例子,你和朋友在路上走著,迎面走來乙個人,你對朋友說:我猜這個人是個上海人,那麼這個問題就屬於分類問題;如果你對朋友說:我猜這個人的年齡在30歲左右,那麼這個問題就屬於後面要說到的**問題。

商業案例中,分類問題可謂是最多的:

有一種很特殊的分類問題,那就是「二分」問題,顯而易見,「二分」問題意味著**的分類結果只有兩個類:如是/否;好/壞;高/低……;這類問題也稱為0/1問題。之所以說它很特殊,主要是因為解決這類問題時,我們只需關注**屬於其中一類的概率即可,因為兩個類的概率可以互相推導。如**x=1的概率為p(x=1),那麼x=0的概率p(x=0)=1-p(x=1),這一點是非常重要的。

可能很多人已經在關心資料探勘方法是怎麼**p(x=1)這個問題的了,其實並不難。解決這類問題的乙個大前提就是通過歷史資料的收集,已經明確知道了某些使用者的分類結果。

例如已經收集到了10000個使用者的分類結果,其中7000個是屬於「1」這類;3000個屬於「0」這類。伴隨著收集到分類結果的同時,還收集了這10000個使用者的若干特徵(指標、變數)。這樣的資料集一般在資料探勘中被稱為訓練集,顧名思義,分類**的規則就是通過這個資料集訓練出來的。

訓練的思路大概是這樣的:對所有已經收集到的特徵/變數分別進行分析,尋找與目標0/1變數相關的特徵/變數,然後歸納出p(x=1)與篩選出來的相關特徵/變數之間的關係(不同方法歸納出來的關係的表達方式是各不相同的,如回歸的方法是通過函式關係式,決策樹方法是通過規則集)。

如需了解細節,請查閱:決策樹、logistic回歸、判別分析、神經網路、chi-square、gini、……等相關知識。

2、聚類問題

聚類問題不屬於**性的問題,它主要解決的是把一群物件劃分成若干個組的問題。劃分的依據是聚類問題的核心。所謂「物以類聚,人以群分」,故得名聚類。

聚類問題容易與分類問題混淆,主要是語言表達的原因,因為我們常說這樣的話:「根據客戶的消費行為,我們把客戶分成三個類,第乙個類的主要特徵是……」,實際上這是乙個聚類問題,但是在表達上容易讓我們誤解為這是個分類問題。

分類問題與聚類問題是有本質區別的:

分類問題是**乙個未知類別的使用者屬於哪個類別(相當於做單選題),而聚類問題是根據選定的指標,對一群使用者進行劃分(相當於做開放式的論述題),它不屬於**問題。

聚類問題在商業案例中也是乙個非常常見的,例如需要選擇若干個指標(如價值、成本、使用的產品等)對已有的使用者群進行劃分:特徵相似的使用者聚為一類,特徵不同的使用者分屬於不同的類。

聚類的方法層出不窮,基於使用者間彼此距離的長短來對使用者進行聚類劃分的方法依然是當前最流行的方法。大致的思路是這樣的:

如需了解細節,請查閱:聚類分析、系統聚類、k-means聚類、歐氏距離、馬氏距離等知識。

3、關聯問題

說起關聯問題,可能要從「啤酒和尿布」說起了。有人說啤酒和尿布是沃爾瑪超市的乙個經典案例,也有人說,是為了宣傳資料探勘/資料倉儲而編造出來的虛構的「託」。不管如何,「啤酒和尿布」給了我們乙個啟示:世界上的萬事萬物都有著千絲萬縷的聯絡,我們要善於發現這種關聯。

關聯分析要解決的主要問題是:

可能是由於最初關聯分析主要是在超市應用比較廣泛,所以又叫「購物籃分析」,英文簡稱為mba,當然此mba非彼mba,意為market basket analysis。

如果在研究的問題中,乙個使用者購買的所有產品假定是同時一次性購買的,分析的重點就是所有使用者購買的產品之間關聯性;如果假定乙個使用者購買的產品的時間是不同的,而且分析時需要突出時間先後上的關聯,如先買了什麼,然後後買什麼?那麼這類問題稱之為序列問題,它是關聯問題的一種特殊情況。從某種意義上來說,序列問題也可以按照關聯問題來操作。

關聯分析有三個非常重要的概念,那就是「三度」:支援度、可信度、提公升度。假設有10000個人購買了產品,其中購買a產品的人是1000個,購買b產品的人是2000個,ab同時購買的人是800個。

如需了解細節,請查閱:關聯規則、apriror演算法中等相關知識。

4、**問題

此處說的**問題指的是狹義的**,並不包含前面闡述的分類問題,因為分類問題也屬於**。一般來說我們談**問題主要指**變數的取值為連續數值型的情況。

例如天氣預報**明天的氣溫、國家**下一年度的gdp增長率、電信運營商**下一年的收入、使用者數等?

**問題的解決更多的是採用統計學的技術,例如回歸分析和時間序列分析。回歸分析是一種非常古典而且影響深遠的統計方法,最早是由達爾文的表弟高爾頓在研究生物統計中提出來的方法,它的主要目的是研究目標變數與影響它的若干相關變數之間的關係,通過擬和類似y=ax1+bx2+……的關係式來揭示變數之間的關係。通過這個關係式,在給定一組x1、x2……的取值之後就可以**未知的y值。

相對來說,用於**問題的回歸分析在商業中的應用要遠遠少於在醫學、心理學、自然科學中的應用。最主要的原因是後者是更偏向於自然科學的理論研究,需要有理論支援的實證分析,而在商業統計分析中,更多的使用描述性統計和報表去揭示過去發生了什麼,或者是應用性更強的分類、聚類問題。

如需了解細節,請查閱:一元線性回歸分析、多元線性回歸分析、最小二乘法等相關知識。

資料探勘概述

隨著技術的不斷發展及資料庫管理系統的廣泛應用,資料庫中儲存的資料量急劇增大,在大量的資料背後隱藏著許 多重要的資訊,如果能把這些資訊從資料庫中抽取出來,將為公司創造很多潛在的利潤,而這種從海量資料庫中挖掘資訊 的技術,就稱之為資料探勘。資料探勘工具能夠對將來的趨勢和行為進行 從而很好地支援人們的決策...

資料探勘系列之二 資料探勘概述

資料庫系統經歷了如下的技術演變 資料收集和資料庫建立,資料管理 dbms,包括資料儲存和檢索,聯機事務處理oltp 以及高階資料分析 涉及資料倉儲和資料探勘 當前常見的資料集形式為多個異構資料來源在單個站點以統一的模式組織的儲存庫,即資料倉儲。資料倉儲技術包括資料清理 資料整合和聯機分析處理olap...

資料探勘系列之二 資料探勘概述

資料庫系統經歷了如下的技術演變 資料收集和資料庫建立,資料管理 dbms,包括資料儲存和檢索,聯機事務處理oltp 以及高階資料分析 涉及資料倉儲和資料探勘 當前常見的資料集形式為多個異構資料來源在單個站點以統一的模式組織的儲存庫,即資料倉儲。資料倉儲技術包括資料清理 資料整合和聯機分析處理olap...