excel決策樹 酸奶決策樹分析

2021-10-11 08:25:52 字數 1376 閱讀 3704

決策樹分類演算法一般分為兩個步驟:決策樹生成和決策樹修剪,運用決策樹分析法,可以找到酸奶的目標人群市場,通過此次決策樹分析,我們得出中收入的未婚和離異的男性為目標市場人群。

一、資料分析

首先計算熵和資訊增益。樣本的概率分布越均衡,它的資訊量(熵)就越大,樣本集的混雜程度就越高,資訊增益越大,說明屬性對分類提供的資訊越多。

共有三種不同影響因素,即性別、收入、婚姻狀況,乙個結果(yes/no)

資訊熵: ent(s)=-

=-0.3*

0.3-0.7*

0.7=0.8813

當性別為男時,4個no,3個yes

ent(s,性別=男)=-3/7*

3/7-4/7*

4/7=0.9859

當性別為女時,3個no

ent(s,性別=女)=0

條件熵:ent(s,性別)=7/10* ent(s,男)+3/10* ent(s,女)=0.6901

資訊增益:gain(s,性別)= ent(s)-ent(s,性別)=0.1912

同理可得:

gain(s,收入)=0.5568

gain(s,婚姻狀況)=0.2813

通過計算得出收入的資訊增益最大,故把收入作為根節點。

然後對收入分類下的三種情況,分別求對應的資訊增益:因為高收入和低收入只有no,所以不用計算。中收入情況下既有yes又有no,還需要繼續分枝,計算得出婚姻狀況的資訊增益最大,將婚姻狀況設為節點。由於婚姻狀況下的子節點中的樣本屬於同一類,故終止。

二、決策樹

三、準確率

1) true positives(tp):被正確地劃分為正例的個數,即實際為正例且被分類器劃分為正例的例項數(樣本數) ;

2) false positives(fp):被錯誤地劃分為正例的個數,即實際為負例但被分類器劃分為正例的例項數;

3) false negatives(fn):被錯誤地劃分為負例的個數,即實際為正例但被分類器劃分為負例的例項數;

4) true negatives(tn):被正確地劃分為負例的個數,即實際為負例且被分類器劃分為負例的例項數。

準確率=(tp+ tn)/( tp+ fp+ fn+tn)

訓練資料:(3+7)/(3+0+0+7)*100%=100%

測試資料:(tp+ tn)/( tp+ fp+ fn+tn)=0+2/0+1+1+2=1/2

四、總結與建議

1、 中等收入的未婚和離異男性為目標市場消費人群,可針對這類消費者推出各種**活動。

2、保證產品質量,提高顧客的忠誠度。

3、創新產品,推出更多型別酸奶,吸引新的消費群體,開拓市場。

excel決策樹 新酸奶決策樹分析

為了發現哪些消費者為新酸奶的目標客戶,我們利用決策樹分析酸奶消費者資料,以收入水平為決策樹的根節點,依次節點是性別和婚姻狀況,最後通過決策樹直觀的得出中等收入男性為決策樹目標客戶的結論。一 構建酸奶購買決策樹 二 分析 通過構建決策樹,我們發現只有中等收入且未婚或離異的男性消費者購買了酸奶,說明該酸...

決策樹分析

進行科學的決策是專案評估工作中的主要目的之一。科學的決策方法就是對比判斷,亦即對擬建專案的備選方案進行比選。但是,決策存在一定的風險性,專案評估工作中的大量決策基本是屬於風險型決策。概率分析為在風險條件下決定方案取捨的方法,決策樹分析也是常用的風險決策方法之一。所謂決策樹分析,就是利用概率分析原理,...

決策樹分析

使用分類樹的判別 目標變數是分類變數的判別問題 首先通過data 函式讀入資料,並通過str 函式確認其結構。data titanic str titanic titanic 1,2,表示第2個變數顯示時為第1水平,第3個變數顯示時為第2水平然後繪製馬賽克圖,將交叉統計結果視覺化。mosaicplo...