資料探勘九律

2021-05-25 07:21:06 字數 1949 閱讀 5370

有位挖掘專家tom khabaza提出了挖掘九律,挺好的東西,特別是九這個數字,深得中華文化精髓,有點獨孤九劍的意思:

第一,目標律。資料探勘是乙個業務過程,必須得有業務目標。無目的,無過程。

第二,知識律。業務知識貫穿在挖掘這個業務過程的各環節。

第三,準備律。資料獲取、資料準備等資料處理耗時佔整個挖掘過程的一半。

第四,nfl律。nfl,沒有免費的午餐。沒有乙個固定的演算法適用所有的業務問題,特定應用適合的模型只能通過經驗發現。

第五,大衛律。要相信,數中必有業務規律。大衛?沃爾金斯最早提出的,故此名。

第六,洞察律。資料探勘本質上是增強對業務領域的認知。

第七,**律。資料探勘基於過去得出模式,並泛化到類似新事物上,這就是**,但這是統計概念的。

第八,價值律。挖掘模型的最終價值並非模型精度或穩定性,而是驅動業務行動或通過新洞察導致策略改善。

第九,變化律。人不會兩次踏入同一條河流。業務在變,目標在變,認識也在變,甚至規律本身也在變,挖掘模型也得與時俱進。

很好, 挖掘者習此九律,必將功力大增,殺敵於無形之中,乃公升遷加薪必備胸器。咱可以設想一些場景,看看這九律是怎麼靈活運用的。運用這九律的心法是,敵不動我不動,見招拆招,以無招勝有照。

故事開始........:s,挖掘新手,m為其導師,挖掘高手。一日,s接到任務,走一趟挖掘。過了段時間,他找到m,m正在閉目打坐。發生一場對話。

s:師傅,徒兒接到任務,已經開始幹了,不出乙個月就可大功告成。

m:嗯,不錯,什麼進展了?

s:我已經安排下去,現在資料準備已經完成,並且建了乙個小模。哎呀,您是不知道啊,那個資料太爛,一堆問題,到處是空值,很多資訊也是假的,balabala….

m:先別說你的資料,資料準備幹了多長時間了?

s:幹了乙個多月,還蠻符合準備率的吧!

m:這個任務到底要幹什麼?

s:嗨,就是要找出想搞破壞的人,放心,第一律我牢記於胸。現在還有兩個人幫我一起做,乙個準備資料,乙個建模。

m:那你幹什麼?

s:我搞業務理解啊,並且運用知識律,搞了乙個挖掘過程模板,我們三個就用這個模板進行過程互動,挺好的,什麼時候給您瞅瞅。

m:嗯,聽起來不錯,那你今天來此打擾我清修作甚?

s:您是不知道啊。不是跟你說了,我們還建了乙個小模嘛。唉,效果不太好。用分類**訓練了資料,但那個資料實在太差了,感覺那個模型一點都不靠譜,沒反應出來什麼規律。我們用那個結論在我們三個身上試了一下,結果大家都覺得不對,我們都成了想搞破壞的人,一點都不符合實際情況。

m:你忘了大衛律了?要相信。還有**律,你這個模型在你們三個身上試驗,能證明什麼?

s:是啊,我沒忘啊。不過要找到規律還需要時間啊。我們要計畫在找更多的樣本去驗證。不過…今天來…確實是無事不登三寶殿…有個事兒…

m:啥事?

s:您前年不是搞了乙個犯罪**嘛,現在很多地方都在用,我想跟這次任務的目標類似,我想能不能就直接把您的模型拉過來訓練一下就行了…您那個模型實在是太絕了…

m:哈哈,看來你想偷懶啊,但你怎麼能夠知道這個模型適用你的任務呢?

s:您的模型我還擔心什麼啊。主要是這次任務時間緊,我也沒辦法,先解決了問題吧,能精確定位目標人群就行了,您的模型,肯定很準的。

m:雖然你拍我馬屁,但我還是對你很失望啊。挖掘的本質是什麼?

s:呃…洞察…我也知道天下沒有免費的午餐...但時間太緊,任務太重啊,沒您不行啊,您的模型就是我們的法寶啊。

m:唉,不說那是兩年前的模型,現在你遇到的情況跟我遇到的情況不一樣,現在的犯罪手段也變了各種花樣,變化率怎麼說的?再說,你為什麼如此看重模型的精度,那並非挖掘的終極價值啊!醒悟吧!我代表客戶鄙視你!

s:老傢伙,你到底是給還是不給?你是想看著我死嗎?

m:(仰天長嘆)唉,師徒一場,罷了罷了,拿去吧。但你此一去,我們師徒恩斷義絕,以後再也不要來見我,再也不要叫我師傅,也不要再別人面前妄稱我是你的師傅。走吧,走吧…

資料探勘九律,看完不後悔

一位挖掘專家 tom khabaza 提出了挖掘九律,挺好的東西,特別是九這個數字,深得中華文化精髓,有點獨孤九劍的意思 第一,目標律。資料探勘是乙個業務過程,必須得有業務目標。無目的,無過程。第二,知識律。業務知識貫穿在挖掘這個業務過程的各環節。第三,準備律。資料獲取 資料準備等資料處理耗時佔整個...

資料探勘演算法和實踐(九) 關聯規則 Apriori

幾個重要概念 支援度 置信度 提公升度 apriori 演算法的工作原理 在實際工作中,我們該如何進行關聯規則挖掘 舉乙個超市購物的例子,下面是幾名客戶購買的商品列表 訂單編號 購買商品 1 牛奶 麵包 尿布 2可樂 麵包 尿布 啤酒 3牛奶 尿布 啤酒 雞蛋 4麵包 牛奶 尿布 啤酒 5麵包 牛奶...

SPSS Modeler資料探勘 資料探勘概述

資料探勘 是一種通過數理模式來分析大量資料,以找出不同的客戶或市場劃分,分析出消費者喜好和行為的方法。可以描述為 是按企業既定業務目標,對大量的企業資料進行探索和分析,揭示隱藏的 未知的 或驗證已知的規律性,並進一步將其模型化的先進的有效的方法。資料探勘 data mining 在技術上的定義是從大...