資料探勘的一般過程

2021-08-20 22:01:46 字數 1161 閱讀 3196

1. 資料集選取或構造

根據任務的目的,選擇資料集。或者從實際中構造自己需要的資料。

2. 資料預處理

確定資料集後,就開始對資料進行預處理使得資料能夠為我們所用了。資料預處理提高資料質量:準確性、完整性和一致性,包括資料清理、資料整合、資料規約和資料變換方法。 

(1)資料清理

忽略元祖、人工填寫缺失值、使用屬性的中心度量填充、給定同一類所有樣本的屬性均值或中位數填充、最可能的值填充

(2)資料整合

實體識別、冗餘和相關分析(卡方檢驗,相關係數,協方差等,用spss比較方便)

(3)資料歸約

(4)資料變換和資料離散化

資料變換:光滑,屬性構造,聚集,規範化,離散化和概念分層。 

3. 資料轉換

將上面處理後的資料轉換為特徵,這些特徵要盡可能的準確的描述資料,並且使得機器學習演算法達到最優。 

詳見特徵工程

4. 資料建模

根據機器學習模型優缺點,選擇適宜本任務的最佳模型。其中一種方式是對每個模型都進行訓練,再統計測試資料的誤差,選擇誤差最小的模型即可。

另外,還需要調整模型的引數,使得模型表現盡可能最優。主要方法有手動調優、網格搜尋、隨機搜尋以及基於貝葉斯的引數調優方法。詳見機器學習調參-模型選擇

5. 結果分析和改進

分析的物件主要是模型的優缺點(或者叫模型的評估),客觀公正的評判自己的作品(能有高手幫忙最好啦)能清醒自己的認知。改進就是從分析當中來。

資料探勘的一般步驟

從資料本身來考慮,通常資料探勘需要有資訊收集 資料整合 資料規約 資料清理 資料變換 資料探勘實施過程 模式評估和知識表示等 8 個步驟。1 資訊收集 根據確定的資料分析物件抽象出在資料分析中所需要的特徵資訊,然後選擇合適的資訊收集方法,將收集到的資訊存入資料庫。對於海量資料,選擇乙個合適的資料儲存...

感冒的一般過程

又感冒了 哎 挺嚴重,鼻涕流不停,特別畏寒,以前沒 發現感冒 這麼可怕。看到 一篇關於感冒的 文章,粘過來 給大家分享 一下,以防感冒 感冒,是一種自癒性疾病。有位著名醫生說過 感冒,不 七天就會好,如果 的話,一周即可痊癒。感冒是自癒性疾病,病程7天。這個病程是指的感冒病毒活動期。一般感覺到的感冒...

搜尋的一般過程

之前學習過很多劉老師的lucene原始碼分析的課程,結果現在整的都忘了,這次重新梳理一下爭取形成自己的東西。後面就不容易忘掉了。劉老師的課程是基於lucene2.x的原始碼分析的,後面lucene迭代了很多版本,也引入了新的資料結構進行優化,但是主體的模組基本上是沒有變的。計畫是先把之前的lunce...