資料探勘引入 基礎知識

2021-09-26 06:20:42 字數 465 閱讀 4220

全球每天都在產生數以兆兆的資料,每個人的行為都會產生資料;資料的**式增長並且廣泛可用讓我們真正進入資料時代。

普通人面對這資料海洋就是束手無策+一臉懵逼(我是誰?我從哪兒來?我要去哪兒?)。但是在這資料海洋中有著無與倫比的財富等待著我們去發現。

資料探勘: 資料探勘是指從大量的資料中通過演算法搜尋隱藏於其中資訊的過程。

資料探勘 = data mining = 知識發現 = knowledge-discovery in databases(kdd)

隱藏的資訊:一般我們稱為知識或者模式。

資料清理–>資料整合–>資料選擇–>資料變換–>資料探勘–>模式評估–>知識表示

概念描述:特徵化與區分

挖掘頻繁模式、關聯和相關性

分類(離散資料)與回歸(連續資料)

聚類分析

資料探勘學習基礎知識

資料探勘的學習,我是參考了 資料探勘概念與技術 韓家煒老師的書籍學習 第一部分 認識資料 1.1 屬性 屬性是乙個資料字段,便是資料物件的乙個特徵。分類一 標稱屬性 值是符號或事物的名稱。ex,hair color,customer id。對其算數運算無 意義。二元屬性 一種標稱屬性。只有兩個狀態o...

資料探勘的幾個基礎知識

1.為什麼資料探勘是重要的?主要是由於存在可以廣泛使用的大量資料,並且迫切需要將這些資料轉換成有用的資訊和知識,以將其廣泛用於市場分析 欺詐檢測 顧客保有 產品控制和科學探索等。2.資料探勘系統的一般結構 知識發現過程由以下步驟組成 1 資料清理 消除雜訊和不一致資料 2 資料整合 可將多重資料來源...

資料探勘 基礎知識 彙總筆記1

分類 有監督 聚類 無監督 1.k means 連續型,數值型資料,使用歐式距離 余弦距離 大哥 小弟 的例子,無監督學習演算法 形心均值是相加再除即可 對異常值敏感 k medoids 形心均值改為中心點,在每個聚簇中按照順序依次選取點,計算該點到當前聚簇中所有點距離之和,最終距離之和最小的點,則...