從資料到資訊到決策

2022-01-12 19:18:26 字數 3674 閱讀 7005

俗話說,忘記歷史就是背叛自己,今天這篇用此做開場再合適不過。

這一篇將根據乙個虛擬的故事,來介紹如何通過歷史資料來幫助乙個銷售人員發現規律資訊從而輔助他來做一些決策資訊。

本文的主角是tim,tim在乙個銷售部門,部門最近決定做新一輪銷售計畫,然後根據計畫結束時,各個銷售人員的銷售業績來進行kpi考核。

tim的部門在確定了銷售任務後,其它人很快的投入到店面的銷售工作中去,而tim則跑到了公司的it維護部門,向it 部門要了乙份歷史的客戶資料。

此時已經有人在責怪tim,說你乙個銷售不去外面跑業務,怎麼跑到it部門"不務正業"來了,而且,專門要以前的客戶資料,居然不去不關心新客戶。

其實,tim還有乙個搞it的朋友,james,他是一位資料分析師,在零售行業也有一定的經驗。tim的第乙個想法就是找 james給些建議。

平時兩個人聊天的過程中,james給tim講了無數多次關於商業智慧型的知識。雖然tim是搞銷售的,但是受到james的經常灌輸,自己對裡面的知識也有了一些印象,比如,資料探勘,當然這個概念對於搞銷售的tim來說簡直就是天書,正所謂隔行如隔山,但是有一點他非常理解,那麼就是:從資料到資訊,也就是說,從資料中獲取資訊

於是,銷售任務一開始,tim就跑到了it部門要了這樣乙份資料,來看看james到底能從這裡頭得到什麼樣的資訊,從而能幫助tim更準確的知道因該給什麼樣的人推薦產品才比較靠譜。

james拿到tim的資料之後,大概的瀏覽了一下:

資料的具體結構如下:

從這份資料中,james看到,裡面包含了客戶的性別,婚姻狀況,年收入以及家庭相關的和教育等基本資訊。其中最後一列關鍵資訊,就是客戶是否購買過產品。如果購買過就記為1,否則就記為0。

james拿過來這個excel檔案,首先做了乙個關鍵影響因素分析。

根據這個工具,首先指定關注的列,就是客戶是否購買了產品的標記:

這裡選擇bikebuyer。

然後再點選choose columns to be used for analysis。

這裡,james根據經驗指定了需要分析的列。很明顯,datafirstppurchase是沒什麼用的,james果斷把這列剔除掉以免影響到分析的準確性。

然後系統會根據james的設定自動處理這些歷史資料。

處理完畢後,系統生成了乙份報告:

於是,james給tim發了一封郵件:

dear tim,

我分析了你提供給我的資料,並且從資料裡得到幾點規則。

首先,關注沒有車,有乙個小孩,以及來自pacific,還有平時上班路程不是太遠的使用者,他們很有可能是你的潛在客戶。

此外,對於有兩台車的客戶,就不要去推薦了,從你們的業務記錄來看這類客戶購買產品的可能性實在不大。

還有小孩數量比較多,上班距離太遠,超過65歲的成為你客戶的可能性也很小。

以上。

best wishes!

james.

某年某月某日

tim收到這封郵件之後非常高興,因為這樣一下子就可以讓他判斷出乙個新客戶是否會購買產品,從而不會在本身就不會有購買需求這類客戶身上花費太多時間,這樣就能把精力投入到更多的目標客戶中去。

不過很快,tim又有了乙個問題,就是單憑這樣的判斷太籠統,容易丟失部分極特殊的客戶,所以tim希望能自己根據客戶的情況做更詳細的判斷。

收到tim的這個請求之後,james在excel中建立了乙個挖掘計算器。

首先,點選**計算工具。

在工具中設定需要**的列。

點選run,excel通過sql server的分析服務開始處理資料。

資料處理完畢後,在excel中生成了幾張報告:

在第乙份報告中,james得到了列表,裡面標識了每個屬性對乙個未知客戶會購買產品的影響程度。

在另外乙份報告中,根據這份分析資料,包含乙個動態的操作**。

每乙個屬性的值都變成了乙個下拉列表,各個屬性的impact影響值加在一起最後得出乙個分數,這個分數如果達到一定的高度,那麼就表明這個客戶很有可能會購買產品。

於是,james把這個excel檔案發給了tim,這樣tim就可以根據收集到的客戶資訊對應選擇裡面的項,然後通過計算知道使用者是否是潛在客戶。

這個檔案幫了tim不少的忙,也準確的識別了一些客戶。但tim也往往抱怨,在出去跑業務的過程中,電腦不是總帶在身邊,所以往往很難及時的做出判斷。

james知道tim的這個煩惱後,告訴他,你把第三份分析報告中的**列印出來就可以了。

這個**把每個屬性的值都列了出來,並且它們對應的分數也在後面。tim列印出來後,可以自己手動在上面做計算。

算好總分後,對比下面的分數,也就是說分數最起碼要達到601才有可能是乙個潛在客戶。

於是,對於it系統的操作不是很熟悉的tim就可以每次對著這個單子來對新客戶作出潛在客戶的判斷。

在這個故事裡,james並沒有用到什麼太複雜的資料,通篇他只在用乙個軟體,就是excel,excel從2007版本開始通過sql server的功能擴充可以實現簡單的資料探勘功能,它通過sql server analysis services分析服務來生成臨時的挖掘模型,通過樣本資料以及挖掘模型和演算法來發現資料中存在的一些規律,相關性等資訊。

通過excel對sql server資料探勘功能的封裝,使得使用者即使不清楚資料探勘的具體演算法也可以實現資料探勘的功能從而做挖掘**分析來輔助決策,甚至都不需要使用者了解什麼樣的挖掘模型演算法適合解決什麼樣的問題,只需要關注excel裡所帶的表分析工具就可以做簡單的**分析。

總之,資料探勘,不是已不是資料分析師們的專屬,有了excel,你也可以。

分別有對用不同的語言版本和x86和x64版本。

同時,針對購物籃這一應用場景,有我的另外一篇隨筆:

使用sql server analysis services資料探勘的關聯規則實現商品推薦功能

這個系列中的前三篇用sql server analysis services到前端應用詳細的介紹了如何實現乙個商品推薦功能。

後兩篇就是在excel中如何實現這個推薦功能。

這些樣本資料都是來自微軟官方的示例資料庫adventure works。

從決策樹到GBDT

首先,決策樹分為分類樹和回歸樹。gbdt中的樹是回歸樹 不是分類樹 gbdt用來做回歸 調整後也可以用於分類。以下羅列了比較好的學習資源,看完就可以掌握gbdt了 決策樹參考 分類樹回歸樹區別參考 分類樹 以c4.5分類樹為例,c4.5分類樹在每次分枝時,是窮舉每乙個feature的每乙個閾值,找到...

從決策樹到GBDT Xgboost(二)

cart 分類與回歸樹 classification and regression tree 既可以用在分類,也可用在回歸,是在給定輸入隨機變數 x x 條件下輸出隨機變數 y role presentation style position relative y y的條件概率分布的學習方法。同樣的...

從決策樹到GBDT(一)

鑑於最近面試總是被問到這類問題,所以這次就是想寫乙個從決策樹到gbdt這一系列的博文。一方面加深記憶,另一方面也供以後方便回頭看。再者若是能夠為也正在機器學習這條路上摸爬滾打的朋友有一點助益就更圓滿了。本部落格是第一部分,主要介紹一下決策樹的基礎 特徵選擇。決策樹演算法主要有三部分 特徵選擇 決策樹...