資料科學家需要了解的5大聚類演算法

2021-09-02 04:42:01 字數 778 閱讀 2311

聚類是一種涉及資料點分組的機器學習技術。給定乙個資料點集,則可利用聚類演算法將每個資料點分類到乙個特定的組中。理論上,同一組資料點具有相似的性質或(和)特徵,不同組資料點具有高度不同的性質或(和)特徵。聚類屬於無監督學習,也是在很多領域中使用的統計資料分析的一種常用技術。本文將介紹常見的5大聚類演算法。

k-means演算法

k-means演算法可能是最知名的聚類演算法,該演算法在**中很容易理解和實現。

k-means聚類

1.首先我們選擇一些類或組,並隨機初始化它們各自的中心點。為了計算所使用類的數量,最好快速檢視資料並嘗試識別任何乙個不同的分組。中心點是和每個資料點向量長度相同的向量,上圖標記為「x」。

2.每個資料點是通過計算該點與每個組中心的距離進行分類的,然後再將該點分類到和中心最接近的分組中。

3.根據這些分類點,通過計算群組中所有向量的均值重新計算分組中心。

4.重複以上步驟進行數次迭代,或者直到迭代之間的組中心變化不大。選擇結果最好的迭代方式。

因為我們只是計算點和組中心之間的距離,計算量很少,所以k-means演算法的速度非常快,具有線性複雜度o(n)。

k-means演算法的缺點是必須選擇有多少個組或類,因為該演算法的目的是從不同的資料中獲得資訊。另外,k-means演算法從隨機的選擇聚類中心開始,因此不同的演算法執行可能產生不同的聚類結果。其結果缺乏一致性,而其他聚類方法結果更一致。

資料科學家需要知道的5種聚類演算法

編譯 bot 編者按 聚類是一種涉及資料點分組的機器學習技術。給定一組資料點,我們可以使用聚類演算法將每個資料點到分類到影象中的特定組中。理論上,同一組中的資料點應具有相似的屬性和特徵,而不同組中的資料點的屬性和特徵則應高度不同。聚類是無監督學習的一種方法,是用於多領域統計資料分析的常用技術。在資料...

資料科學家面臨的八大挑戰

資料是乙個利潤豐厚的領域,而且對具有相關技能的人有大量需求。然而,任何職業都面臨著挑戰,資料科學也不例外。從資料科學領域和管理資料科學的人的角度 資料科學的真正挑戰。需要專家而不是全才。最好的資料科學家不會試圖去做所有的事情。相反,他們將專業專注的範圍縮小到特定領域。鼓勵新的專業人士認識到,資料科學...

層次聚類演算法 從事資料科學需要掌握的5種聚類演算法

聚類是一種涉及資料點分組的機器學習技術。給定一組資料點,我們可以使用聚類演算法將每個資料點分類到特定的組。理論上,同一組中的資料點應具有相似的屬性和 或特徵,而不同組中的資料點應具有高度不同的屬性和 或特徵。聚類是一種無監督學習的方法,是許多領域中使用的常見統計資料分析技術。在資料科學中,我們可以使...