什麼是無監督學習?概念 使用場景及演算法詳解

2021-09-17 22:31:50 字數 2914 閱讀 8155

無監督學習是機器學習中的一種訓練方式/學習方式

下面通過跟監督學習的對比來理解無監督學習:

監督學習是一種目的明確的訓練方式,你知道得到的是什麼;而無監督學習則是沒有明確目的的訓練方式,你無法提前知道結果是什麼

監督學習需要給資料打標籤;而無監督學習不需要給資料打標籤

監督學習由於目標明確,所以可以衡量效果;而無監督學習幾乎無法量化效果如何

簡單總結一下:

無監督學習是一種機器學習的訓練方式,它本質上是乙個統計手段,在沒有標籤的資料裡可以發現潛在的一些結構的一種訓練方式。

它主要具備3個特點:

無監督學習沒有明確的目的

無監督學習不需要給資料打標籤

無監督學習無法量化效果

這麼解釋很難理解,下面用一些具體案例來告訴大家無監督學習的一些實際應用場景,通過這些實際場景,大家就能了解無監督學習的價值。

案例1:發現異常

有很多違法行為都需要"洗錢",這些洗錢行為跟普通使用者的行為是不一樣的,到底**不一樣?

如果通過人為去分析是一件成本很高很複雜的事情,我們可以通過這些行為的特徵對使用者進行分類,就更容易找到那些行為異常的使用者,然後再深入分析他們的行為到底**不一樣,是否屬於違法洗錢的範疇。

通過無監督學習,我們可以快速把行為進行分類,雖然我們不知道這些分類意味著什麼,但是通過這種分類,可以快速排出正常的使用者,更有針對性的對異常行為進行深入分析。

案例2:使用者細分

這個對於廣告平台很有意義,我們不僅把使用者按照性別、年齡、地理位置等維度進行使用者細分,還可以通過使用者行為對使用者進行分類。

通過很多維度的使用者細分,廣告投放可以更有針對性,效果也會更好。

案例3:推薦系統

常見的2類演算法是:聚類、降維

聚類:簡單說就是一種自動分類的方法,在監督學習中,你很清楚每乙個分類是什麼,但是聚類則不是,你並不清楚聚類後的幾個分類每個代表什麼意思。

「聚類演算法」k均值聚類

k均值聚類就是制定分組的數量為k,自動進行分組。

k 均值聚類的步驟如下:

定義 k 個重心。一開始這些重心是隨機的(也有一些更加有效的用於初始化重心的演算法)

尋找最近的重心並且更新聚類分配。將每個資料點都分配給這 k 個聚類中的乙個。每個資料點都被分配給離它們最近的重心的聚類。這裡的「接近程度」的度量是乙個超引數——通常是歐幾里得距離(euclidean distance)。

將重心移動到它們的聚類的中心。每個聚類的重心的新位置是通過計算該聚類中所有資料點的平均位置得到的。

重複第 2 和 3 步,直到每次迭代時重心的位置不再顯著變化(即直到該演算法收斂)。

其過程如下面的**:

「聚類演算法」層次聚類

如果你不知道應該分為幾類,那麼層次聚類就比較適合了。層次聚類會構建乙個多層巢狀的分類,類似乙個樹狀結構。

層次聚類的步驟如下:

首先從 n 個聚類開始,每個資料點乙個聚類。

將彼此靠得最近的兩個聚類融合為乙個。現在你有 n-1 個聚類。

重新計算這些聚類之間的距離。

重複第 2 和 3 步,直到你得到包含 n 個資料點的乙個聚類。

選擇乙個聚類數量,然後在這個樹狀圖中劃一條水平線。

「降維演算法」主成分分析 - pca

主成分分析是把多指標轉化為少數幾個綜合指標。

主成分分析經常用減少資料集的維數,同時保持資料集的對方差貢獻最大的特徵。這是通過保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留住資料的最重要方面。

變換的步驟:

第一步計算矩陣 x 的樣本的協方差矩陣 s(此為不標準pca,標準pca計算相關係數矩陣c)

第二步計算協方差矩陣s(或c)的特徵向量e1,e2,…,en和特徵值 , t = 1,2,…,n

第三步投影資料到特徵向量張成的空間之中。利用下面公式,其中bv值是原樣本中對應維度的值。

「降維演算法」奇異值分解 - svd

奇異值分解(singular value decomposition)是線性代數中一種重要的矩陣分解,奇異值分解則是特徵分解在任意矩陣上的推廣。在訊號處理、統計學等領域有重要應用。

什麼是無監督 監督 半監督學習

區分有監督和無監督,就是看是否有監督 supervised 也就看輸入資料是否有標籤 label 輸入資料有標籤,則為有監督學習 x,y 沒標籤則為無監督學習 x 這也正如我們在高中做題,答案 標籤 是非常重要的,假設兩個完全相同的人進入高中,乙個正常學習 題目有答案 另一人做的所有題目都沒有答案,...

監督學習和無監督學習(概念)

機器學習主要解決的是兩類問題,監督學習和無監督學習。掌握機器學習,主要就是學習 掌握解決這兩類問題的基本思路。1.什麼是監督學習?監督學習是指這麼乙個過程,通過外部的響應變數來指導模型學習我們關心的任務,並達到我們需要的目的。也就是說,監督學習的最終目標,是使模型可以更準確地對我們所需要的響應變數建...

有監督 無監督學習概念

機器學習分為 監督學習,無監督學習,半監督學習等。監督學習 supervised learning 無監督學習 unsupervised learning 半監督學習 semi supervised learning 有監督和無監督兩者的不同點 有監督學習方法必須要有訓練集與測試樣本。在訓練集中找規...