資料探勘 基礎知識 彙總筆記1

2021-10-24 04:12:52 字數 394 閱讀 4642

分類:有監督;聚類:無監督;

1.k-means:連續型,數值型資料,使用歐式距離(余弦距離)「大哥-小弟」的例子,無監督學習演算法;形心均值是相加再除即可;對異常值敏感

--k-medoids:形心均值改為中心點,在每個聚簇中按照順序依次選取點,計算該點到當前聚簇中所有點距離之和,最終距離之和最小的點,則視為新的中心點。計算量比上乙個大。

2.k-modes;只是處理分類變數資料;使用漢明距離:不同屬性值的個數, 差異度越小,則表示距離越小

3.fuzzy k-modes;模糊;2023年**有;

4.k-prototypes;基於原型,含有數值型資料也含有分類資料,一種能同時處理兩種不同型別資料的聚類方法;時間複雜度比較高;

5.w-k-means;基於權重的k-means演算法;

資料探勘學習基礎知識

資料探勘的學習,我是參考了 資料探勘概念與技術 韓家煒老師的書籍學習 第一部分 認識資料 1.1 屬性 屬性是乙個資料字段,便是資料物件的乙個特徵。分類一 標稱屬性 值是符號或事物的名稱。ex,hair color,customer id。對其算數運算無 意義。二元屬性 一種標稱屬性。只有兩個狀態o...

資料探勘引入 基礎知識

全球每天都在產生數以兆兆的資料,每個人的行為都會產生資料 資料的 式增長並且廣泛可用讓我們真正進入資料時代。普通人面對這資料海洋就是束手無策 一臉懵逼 我是誰?我從哪兒來?我要去哪兒?但是在這資料海洋中有著無與倫比的財富等待著我們去發現。資料探勘 資料探勘是指從大量的資料中通過演算法搜尋隱藏於其中資...

基礎知識彙總

整型int,浮點型float,複合型complex 基本不使用 字串string,布林型bool,列表list,字典dict,集合set,元組tuple 可變資料型別 list dict set 當刪除第乙個元素的時候,後面的元素向前一定了一次,而for迴圈還是要向後走一步,這樣就錯過了在沒有刪除前...