資料探勘的常見方法

資料探勘就是從大量的、不完全的、有雜訊的、模糊的資料中提取隱含在其中的、人們事先不知道的、但又是潛在有用的資訊和知識的過程。確切地說，作為一門廣義的面向應用的交叉學科，資料探勘整合了許多學科中成熟的工具和技術，包括資料倉儲技術、統計學、機器學習、模型識別、人工智慧、神經網路等等。

對企業來說，資料探勘就是在「資料礦山」中找到蘊藏的「知識金塊」，幫助企業減少不必要投資的同時提高資金回報。目前應用最為廣泛的資料探勘過程模型是crisp-dm（跨行業資料探勘過程標準，cross-industrystandard process for data mining）。crisp-dm將整個資料探勘期分為6個階段：商業理解（businessunderstanding）、資料理解（dataunderstanding）、資料準備（data preparation）、建模（modeling）、評估（evaluation）、佈署（deployment）。crisp-dm資料探勘過程模型如下圖：

資料探勘中電腦知識大部分方法都不是專為解決某個問題而特製的，方法之間也不互相排斥。不能說乙個問題一定要採用某種方法，別的就不行。一般來說，針對某個特定的資料分析課題，並不存在所謂的最好的方法，在最終決定選取哪種模型或方法之前，各種模型都試一下，然後再選取乙個較好的。各種方法在不同的資料環境中，優劣會有所不同。

資料探勘的方法主要有：關聯分析、聚類分析、**、時序模式分析和偏差分析等。

常見和應用最廣泛的演算法和模型有： 1、

傳統統計方法

：抽樣技術、多元統計分析和統計**方法等。 2、

視覺化技術

：用圖表等方式把資料特徵直觀地表述出來。 3、

決策樹：利用一系列規則劃分，建立樹狀圖，用樹形結構來表示決策集合，可用於分類和**，常用的演算法有cart、chaid、id3、c4.5、c5.0等。 4、

人工神經網路

：模擬人的神經元功能，從結構上模仿生物神經網路，經過輸入層、隱藏層、輸出層等，對資料進行調整、計算，最後得到結果，是一種通過訓練來學習的非線性**模型，可以完成分類、聚類、特徵挖掘、回歸分析等多種資料探勘任務。 5、

遺傳演算法

：基於自然進化理論，在生物進化的概念基礎上設計的一種優化技術，它包括基因組合、交叉、變異和自然選擇等一系列過程，通過這些過程以達到優化的目的，模擬基因聯合、突變、選擇等過程的一種優化電腦知識技術。 6、

關聯規則挖掘演算法

：關聯規則是描述資料之間存在關係的規則，形式為「a1∧a2∧…∧an→b1∧b2∧…∧bn」。一般分為兩個步驟：第一步，求出頻繁資料項集；第二步，用頻繁資料項集產生關聯規則。 7、

資料探勘的常見方法

資料探勘的常見方法

Pandas 資料清洗常見方法

Python os的常見方法

資料探勘的常見方法

資料探勘的常見方法

Pandas 資料清洗常見方法

Python os的常見方法

相關推薦