資料探勘123

資料處理相關工作的經驗總結。

1，資料分析的目的提出方案，解決問題。

所以，面對海量資料，先不要著急去分析。大致了解資料構成，內容，欄位就可以了。否則，在資料沙漠裡行走，不累死，也拖拉致死。

2，確定目標後，再篩選資料。選擇你需要的資料，過濾掉無效資料（包括去除非必要字段，清洗髒資料，如去重，去空），如果是高手，可以分析出雜訊資料，去掉對分析是大大有利的。

在進一步分析的過程，深入過濾資料，細粒度的對比資料，增加約束條件，在相同條件下對比，遮蔽不同因素造成的影響。比如，細化到不同地域，來分析各個地域的特色，就可以遮蔽掉不同地域特點的影響（包括人文素養，客觀裝置環境等因素的）。

3，篩選出合適的資料後，對資料集處理，按不同維度區分。劃分不同集合，來進行對比。

4，構建合理的模型。因為模型的提出，包含很大的主觀性。分析師本身的認知（知識構成）就不同，而觀察資料是一種主觀意識行為，從不同的角度看同一事物，就會有不同的結論。因此，模型的構建是主觀意識形態對客觀資料的反射，會存在很多侷限性。要正確面對自己的不足，更多的了解分析事務的業務邏輯，面向的物件，資料的成分。這樣可以講不足，通過約束條件進行補充。資料分析定義了心智模型，在定義模型時，要不被自身的不足所引導，被個人習慣和主觀意識限制。要客觀的面對資料，勇於面對自身不足，詳細的調查事務的各方面知識，構建更好的心智模型。

5，實驗驗證，想辦法進行實驗，客觀條件限定，因此要設計小而精的對比實驗，如果條件允許，越全面越能反應問題。一定要形成對比，否則實驗無意義。但不能過多，無意義的進行實驗。實驗的目的是驗證模型。檢驗自己提出的理論。最終的目的不能偏離。

6，構建目標函式，通過大量資料，設定目標函式，可以進行判斷和**。給出誤差，支援度和可信度是非常重要的。這樣，能客觀闡述模型的正確性。

在資料探勘過程中，有各種工具，etl的kettle，資料庫軟體，weka，schema，和saiku，甚至是excel和r，這些都是非常好的工具，可以方面有效地處理資料。

（1）如果是做過專案的工程師，就會篩選工作。如編輯器用emeditor，用快取讀入檔案，可以顯示大資料檔案，幾十g的。用notepad++開啟（20g）容易掛了。

（2）mysql插入，刪，改，快，但是查詢效率低，尤其是in，基本上g以上的上資料就慢到家了！infinidb查詢效率極快（列式儲存），但插入和改很慢。所以我個人使用mysql，維護資料（刪改），使用infinidb做後期呈現。

（3）資料直接呈現，使用saiku最方面，用網路埠訪問，通過篩選查到具體的資料部分，關注到區域性資料。但具體給客戶和需求方提供報表的時候，還是excel做圖，樣式多，複雜度可以很高，可以從巨集觀上呈現資料的分布特點（統計量的直觀顯示，便於理解）。

資料探勘的理論知識也要有一定儲備。如，**如何用多元線性回歸模擬函式，或者構建決策樹。還logistic函式模型的應用。

資料本身的特點要利用資料探勘知識，才能有效的發現。如購物籃分析，關聯性資料分析。

bayes的使用度非常高，很多理論以這個為基礎。從演算法的角度，機器學習更重視演算法研究過程，而資料探勘更加重視理論的應用結果

當然，有時間，也可以看看那代價敏感方面的內容，本人研究階段一直從事這個方面的研究工作，（兩個華人大牛，楊強和charles lin（凌曉峰））這個應用性還不是特別強，但從研究角度，還是有非常的推廣空間。

很多時候，資料過多就是災難，都是特點，就是沒有特點。自身的條件有限，就很難做出又快又有效的推薦。

所以，有時候可以把特點發現，交給資料本身。比如協同過濾，直接讓具有共同特性的使用者，產生共同特點，歸為一類，完成推薦。

亞馬遜使用的協同過濾，讓分析師不必構建不同模型。直接將購買相同使用者，歸為同一類，作為共同點，將共同點最多的客戶夠買其它產品推薦給其他使用者。

當然，為了執行效率，你可以看到最簡單除暴的推薦：瀏覽這個寶貝的使用者，也在看這些。。。

網際網路，快，是第一位的。好，相對次要。網路客戶對等待時間的要求是苛刻的。

所以，不要手賤的搜尋骨灰盒，否則，未來多少天，你的網頁推薦的都是骨灰盒。煩了就請cookie吧！否則，天天看，這個小盒，才是你永遠的家

資料探勘123

SPSS Modeler資料探勘資料探勘概述

資料探勘資料

資料探勘關聯規則挖掘

資料探勘123

SPSS Modeler資料探勘 資料探勘概述

資料探勘 資料

資料探勘 關聯規則挖掘

相關推薦

SPSS Modeler資料探勘資料探勘概述

資料探勘資料

資料探勘關聯規則挖掘