走出資料探勘的誤區

2021-06-06 10:26:44 字數 1472 閱讀 3005

◆資料探勘萬能論:身邊的永動機

我們身邊有永動機麼?沒有,但是如果這樣講:「資料探勘是萬能的,它可以計算出你想要的任何東西,只要有資料。」——這句話就是永動機的理論。在資料探勘的經典理論中,模式並非一定存在,模式不明顯到與隨機分布差不多的時候,就根本沒有模式。翻譯成電信語言就是:如果流失客戶在系統中的資料與未流失客戶的特徵沒有任何差別,那麼流失是不可**的。避免這類錯誤的方法只有乙個:了解資料探勘的經典理論和基本概念。

◆命中率神話:揭開效果之謎

用分類技術(決策樹、神經網路)作流失**的時候,很多任務程師會跟甲方承諾乙個命中率。命中率的概念是工程師給出的流失客戶的名單中下個月真正流失客戶的佔比。這個值好像越高越好,其實不然。這是因為資料探勘軟體作的**實際上是一種概率的判決,必然存在錯誤的判斷。精確的說法應該是在一定比例內的命中率。比如本地網有10萬個客戶,則3000人名單的準確率、5000人名單的準確率、1萬人名單的準確率的說法才是科學的。企業需要實事求是,根據自己的業務需求確定乙個綜合考慮覆蓋率的準確率期望。

◆軟體工具必須買:造中國自己的原子彈

有些企業經理認為,軟體工具必須購買大公司開發的,其複雜、專業、有權威的示範性。但它是否適應企業或者適應研究的業務並不在經理們重點考慮的範圍內。如果我們經常穿梭於專業的資料探勘工作組,就會發現真正的高手是不使用商業資料探勘軟體的,即使使用,也用sasem這樣的可以寫**的軟體。他們的工作方法是:探索資料、找合適的演算法、簡單編碼實現、跑資料和寫報告,因為應用的層次深化和效果提公升才是最重要的。中國可以造自己的原子彈,運營商呢?

◆工程師的水平標桿:智慧型庫與會說話的工具

企業招聘資料探勘工程師時,應聘者眾多,有人自稱從事資料探勘工作已20年,但事實上,國內人士研究資料探勘才不過十年。很多人認為統計也是資料探勘,那麼,如何去衡量資料探勘工程師的真實實力與水平呢?第一,看他理論基礎。第二,看他掌握方法。沒有足夠的數學模型能力、統計分析能力、邏輯分析能力的工程師是不合格的。第三,看他創新能力。一句話,好的資料探勘工程師是可以依靠的智慧型庫,不那麼優秀的資料探勘工程師只是會說話的工具。

◆模型不用更新:流水不腐,戶樞不蠹

有人說,模型做好了就不用更新了。中國古諺「流水不腐,戶樞不蠹」,用在資料探勘上再合適不過。客戶是流動的、業務是變化的、政策是滾動的、對手是狡猾的、經濟是波動的,那麼模型是固定的嗎?不是,一系列的變化使得客戶的行為模式發生變化,模型也要適時更新,否則商機若失,必成庸碌之輩。

◆演算法都一樣:西裝穿球鞋

有不少僅僅懂得資料探勘技術皮毛的人會大手一揮:演算法都是一樣的,不就是聚個類、預個測嗎?我們都知道穿西裝是不可以穿球鞋的,因為不匹配,在資料探勘實踐中,演算法是死板的,沒有一種演算法可以一統江湖,演算法的適用性非常重要,對雜訊點多而且多為奇異點的資料,最好不用k-means這樣的演算法,而要採用dbscan;反之遇到資料為球狀簇分布而且呈啞鈴狀的粘連簇,k-means的表現要遠好於dbscan。

c 走出誤區。

昨天看 c in depth 有部分是走出誤區。覺得不錯,故記之。1.不少人認為引用型別在堆上,值型別在棧上,前半部分是對的,但後半部分就有問題了。假設乙個類中有乙個int型別的例項變數,那麼這個類的任何物件中,該變數的值總是和物件中的其他資料在一起,也就是在堆上。2.物件在c 中預設是通過引用傳遞...

走出英語寫作的誤區

誤區 使用句型太複雜以致出錯 小作文的寫作強調的是內容連貫,句子通順,語言流暢,並且句子與句子之間能夠用恰當的關聯詞銜接起來,並不要求寫出多複雜的句子。但有些考生理解為只有句子長了,所用的從句多了才更純正,所以使用各種從句分詞等,致使文章言不達意,錯誤百出,效果適得其反。誤區 加入太多的想象成分,使...

網路程式設計 走出完成埠的誤區

f 最後給各位推薦幾本個人認為很經典的書籍 1 unix網路程式設計 richard stevens版,最新版可以當參考 2 tcp ip協議卷 1 3 richard stevens等 3 linux核心xx 名稱可能不正確 作者是德國人還是美國人,忘記了,但是詳細分析了linux下tcp ip協...