機器學習實戰學習筆記 無監督學習

2021-09-25 21:31:38 字數 786 閱讀 3622

一、未標註資料的分類

1、k-means演算法

缺點:可能收斂到區域性最優,並且在大規模資料上收斂較慢

初始隨機生成k個質心,遍歷所有資料點,計算到所有質心的距離,並將其分配到距離最近的質心所在的簇,然後更新質心,只要質心改變,就重複上述過程

2、後處理

可對k-means演算法產生的簇進行後處理從而達到更好的分簇效果,有兩種可量化的辦法,選擇距離最近的兩個質心進行合併或選擇合併後資料點距質心距離和增幅最小的兩個質心進行合併,並選擇資料點到質心距離和最大的簇進行二分簇。

3、二分k-means演算法

每次只對乙個簇進行二分,選擇二分後最大程度降低資料點到質心距離之和的或資料點到質心距離之和的簇進行二分,相對k-means演算法,此演算法更可能收斂到全域性最優解。

二、apriori演算法

缺點:在大資料集上可能較慢

子集包括非頻繁項的集合一定也是非頻繁項,因此刪除非頻繁項只選擇小的頻繁項組成大的頻繁項集,可有效減低計算量。

挖掘關聯規則時,若a,b–>d的可信度低於閾值,那麼a—>b,c的可信度一定也低於閾值。與上同理,只對可信度高的小右項組成大的右項,可有效減低計算量。

三、fp-growth演算法

能更為高效的發現頻繁項集,但不能用於發現關聯規則。

只用對資料集掃瞄兩遍,第一遍對所有元素項出現次數計數,在第二遍掃瞄中,只考慮那些頻繁元素。第二遍掃瞄對每條記錄都按照支援度將元素項從大到小排序,然後構建fp樹。

fp樹構建完成後,對每個原頻繁元素統計字首路徑及支援度,對字首路徑組成的集合遞迴呼叫fp樹構建演算法,即生成乙個條件模式基,發現頻繁項。

《機器學習實戰》 無監督學習

基本原理 無監督學習中,要劃分的類別或者目標變數事先並不存在。擺在面前的是一堆無意義的資料集,要對其進行分組。其中最重要的演算法有三個 k均值演算法 基於apriori的關聯分析 基於fp growth的關聯分析。1.k means k核算法 隨機確定k個初始點作為質心 將資料集中每個點分配到乙個蔟...

機器學習筆記 監督學習,無監督學習,半監督學習

這個問題可以回答得很簡單 是否有監督 supervised 就看輸入資料是否有標籤 label 輸入資料有標籤,則為有監督學習,沒標籤則為無監督學習。什麼是學習 learning 學習 乙個成語就可概括 舉一反三。此處以高考為例,高考的題目在上考場前我們未必做過,但在高中三年我們做過很多很多題目,懂...

機器學習筆記 監督學習 無監督學習分類筆記

無監督學習 給出一資料組,並已知曉這組資料的對應關係,然後給出一組新的資料,嘗試對其進行 和分析,這裡注意,提前給出的資料組 data set 是已知內部的資料的對應關係,後面給出的新的資料,是要依據對之前資料的學習後,給出新的資料對應的 值。而對於 的結果的不同,又將監督學習分為分類 classf...