資料探勘引入基礎知識

全球每天都在產生數以兆兆的資料，每個人的行為都會產生資料；資料的**式增長並且廣泛可用讓我們真正進入資料時代。

普通人面對這資料海洋就是束手無策+一臉懵逼（我是誰？我從哪兒來？我要去哪兒？）。但是在這資料海洋中有著無與倫比的財富等待著我們去發現。

資料探勘：資料探勘是指從大量的資料中通過演算法搜尋隱藏於其中資訊的過程。

資料探勘 = data mining = 知識發現 = knowledge-discovery in databases（kdd）

隱藏的資訊：一般我們稱為知識或者模式。

資料清理–>資料整合–>資料選擇–>資料變換–>資料探勘–>模式評估–>知識表示

概念描述：特徵化與區分

挖掘頻繁模式、關聯和相關性

分類（離散資料）與回歸（連續資料）

聚類分析

資料探勘的學習，我是參考了資料探勘概念與技術韓家煒老師的書籍學習第一部分認識資料 1.1 屬性屬性是乙個資料字段，便是資料物件的乙個特徵。分類一標稱屬性值是符號或事物的名稱。ex，hair color,customer id。對其算數運算無意義。二元屬性一種標稱屬性。只有兩個狀態o...

1.為什麼資料探勘是重要的？主要是由於存在可以廣泛使用的大量資料，並且迫切需要將這些資料轉換成有用的資訊和知識，以將其廣泛用於市場分析欺詐檢測顧客保有產品控制和科學探索等。2.資料探勘系統的一般結構知識發現過程由以下步驟組成 1 資料清理消除雜訊和不一致資料 2 資料整合可將多重資料來源...

分類有監督聚類無監督 1.k means 連續型，數值型資料，使用歐式距離余弦距離大哥小弟的例子，無監督學習演算法形心均值是相加再除即可對異常值敏感 k medoids 形心均值改為中心點，在每個聚簇中按照順序依次選取點，計算該點到當前聚簇中所有點距離之和，最終距離之和最小的點，則...

資料探勘引入 基礎知識