資料探勘123

2021-06-20 03:37:18 字數 1935 閱讀 2410

資料處理相關工作的經驗總結。

1,資料分析的目的 提出方案,解決問題。

所以,面對海量資料,先不要著急去分析。大致了解資料構成,內容,欄位就可以了。否則,在資料沙漠裡行走,不累死,也拖拉致死。

2,確定目標後,再篩選資料。選擇你需要的資料,過濾掉無效資料(包括去除非必要字段,清洗髒資料,如去重,去空),如果是高手,可以分析出雜訊資料,去掉對分析是大大有利的。

在進一步分析的過程,深入過濾資料,細粒度的對比資料,增加約束條件,在相同條件下對比,遮蔽不同因素造成的影響。比如,細化到不同地域,來分析各個地域的特色,就可以遮蔽掉不同地域特點的影響(包括人文素養,客觀裝置環境等因素的)。

3,篩選出合適的資料後,對資料集處理,按不同維度區分。劃分不同集合,來進行對比。

4,構建合理的模型。因為模型的提出,包含很大的主觀性。分析師本身的認知(知識構成)就不同,而觀察資料是一種主觀意識行為,從不同的角度看同一事物,就會有不同的結論。因此,模型的構建是主觀意識形態對客觀資料的反射,會存在很多侷限性。要正確面對自己的不足,更多的了解分析事務的業務邏輯,面向的物件,資料的成分。這樣可以講不足,通過約束條件進行補充。資料分析定義了心智模型,在定義模型時,要不被自身的不足所引導,被個人習慣和主觀意識限制。要客觀的面對資料,勇於面對自身不足,詳細的調查事務的各方面知識,構建更好的心智模型。

5,實驗驗證,想辦法進行實驗,客觀條件限定,因此要設計小而精的對比實驗,如果條件允許,越全面越能反應問題。一定要形成對比,否則實驗無意義。但不能過多,無意義的進行實驗。實驗的目的是驗證模型。檢驗自己提出的理論。最終的目的不能偏離。

6,構建目標函式,通過大量資料,設定目標函式,可以進行判斷和**。給出誤差,支援度和可信度是非常重要的。這樣,能客觀闡述模型的正確性。

在資料探勘過程中,有各種工具,etl的kettle,資料庫軟體,weka,schema,和saiku,甚至是excel和r,這些都是非常好的工具,可以方面有效地處理資料。

(1)如果是做過專案的工程師,就會篩選工作。如編輯器用emeditor,用快取讀入檔案,可以顯示大資料檔案,幾十g的。用notepad++開啟(20g)容易掛了。

(2)mysql插入,刪,改,快,但是查詢效率低,尤其是in,基本上g以上的上資料就慢到家了!infinidb查詢效率極快(列式儲存),但插入和改很慢。所以我個人使用mysql,維護資料(刪改),使用infinidb做後期呈現。

(3)資料直接呈現,使用saiku最方面,用網路埠訪問,通過篩選查到具體的資料部分,關注到區域性資料。但具體給客戶和需求方提供報表的時候,還是excel做圖,樣式多,複雜度可以很高,可以從巨集觀上呈現資料的分布特點(統計量的直觀顯示,便於理解)。

資料探勘的理論知識也要有一定儲備。如,**如何用多元線性回歸模擬函式,或者構建決策樹。還logistic函式模型的應用。

資料本身的特點要利用資料探勘知識,才能有效的發現。如購物籃分析,關聯性資料分析。

bayes的使用度非常高,很多理論以這個為基礎。從演算法的角度,機器學習更重視演算法研究過程,而資料探勘更加重視理論的應用結果

當然,有時間,也可以看看那代價敏感方面的內容,本人研究階段一直從事這個方面的研究工作,(兩個華人大牛,楊強和charles lin(凌曉峰))這個應用性還不是特別強,但從研究角度,還是有非常的推廣空間。

很多時候,資料過多就是災難,都是特點,就是沒有特點。自身的條件有限,就很難做出又快又有效的推薦。

所以,有時候可以把特點發現,交給資料本身。比如協同過濾,直接讓具有共同特性的使用者,產生共同特點,歸為一類,完成推薦。

亞馬遜使用的協同過濾,讓分析師不必構建不同模型。直接將購買相同使用者,歸為同一類,作為共同點,將共同點最多的客戶夠買其它產品推薦給其他使用者。

當然,為了執行效率,你可以看到最簡單除暴的推薦: 瀏覽這個寶貝的使用者,也在看這些。。。

網際網路,快,是第一位的。好,相對次要。網路客戶對等待時間的要求是苛刻的。

所以,不要手賤的搜尋骨灰盒,否則,未來多少天,你的網頁推薦的都是骨灰盒。煩了就請cookie吧!否則,天天看,這個小盒,才是你永遠的家

SPSS Modeler資料探勘 資料探勘概述

資料探勘 是一種通過數理模式來分析大量資料,以找出不同的客戶或市場劃分,分析出消費者喜好和行為的方法。可以描述為 是按企業既定業務目標,對大量的企業資料進行探索和分析,揭示隱藏的 未知的 或驗證已知的規律性,並進一步將其模型化的先進的有效的方法。資料探勘 data mining 在技術上的定義是從大...

資料探勘 資料

對關注的屬性,樣本與原始資料集有相同的性質,則用抽樣計算的結果與全集是一樣。1.1 抽樣的方法 1 簡單隨機抽樣 random sampling 放回 不放回 2 分層抽樣 stratified sampling 如果資料集不同型別的資料數量差異過大,則隨機抽樣會丟失數量少的樣本。可針對不同資料組,...

資料探勘 關聯規則挖掘

關聯規則 association rule 是資料中所蘊含的一類重要規律。關聯規則挖掘的目標是在資料專案中找出所有的併發關係 cooccurrence relationships 這種關係也稱為關聯 association 關聯規則挖掘的經典應用是購物籃 market basket 關聯規則挖掘並沒...