分類 回歸 聚類 異常檢測

2021-08-20 12:55:24 字數 1895 閱讀 7106

支援向量機(svm)可用於找到盡可能寬的分類的邊界。當兩個分類不能被清楚地分開時,該演算法會找到其所能找到的最佳邊界。其真正的亮點在於處理特徵密集的資料,比如文字或者基因組(特徵數量》 100)。在這些情況下,除了僅需要適量的記憶外,支援向量機(svm)能夠比其它大多數演算法更快且更少過擬合地進行分類。

人工神經網路是涵蓋二分類、多分類和回歸問題的腦啟發式學習演算法。它們有無限的種類,包括感知器和深度學習。它們需要很長時間來訓練,但已知其在多種應用領域都實現了當前最佳的表現。

logistic 回歸:即便名字中有著「回歸」,但 logistic 回歸實際上是一種可用於二分類和多分類問題的強大工具。它快速且簡單。事實上,它使用「s」形曲線而非直線,所以它自然適合用於資料分組。logistic 回歸可以給出線性分類邊界,所以如果你要使用它,你一定要確保你能接受線性的近似。

決策樹和隨機森林:決策森林(decision forests)(回歸、二分類、多分類),決策叢林(decision jungles)(二分類和多分類)和提公升決策樹(boosted decision trees)(回歸和二分類)都基於決策樹。這是乙個基本的機器學習概念。決策樹有許多不同的變體,但它們都在做同樣的事情—將特徵空間(feature space)細分為具有大致相同標籤的區域。這些區域可以是一致的類別或者恆定值,具體取決於你進行的是分類還是回歸。

線性回歸是將一條線(或平面、或超平面)擬合到乙個資料集上。這是一種主要的工具,簡單且快速,但對於一些問題而言,它可能過於簡單。

貝葉斯線性回歸有著非常理想的特性:它可以避免過擬合。貝葉斯方法通過事先對答案的可能分布做出一些假設來做到這一點。這種方法的另乙個副產品是它們具有非常少的引數。

提公升決策樹回歸(boosted decision tree regression):如上所述,提公升決策樹(回歸和二分類)均基於決策樹,並通過將特徵空間細分為具有大致相同標籤的區域發揮效用。提公升決策樹通過限制其可以細分的次數以及每個區域中所允許的最少資料點來避免過擬合。該演算法會構造乙個樹的序列,其中每棵樹都會學習彌補之前的樹留下來的誤差。這能得到乙個會使用大量的記憶體的非常精確的學習器。

層次聚類(hierarchical clustering)的目標是構建聚類的層次結構,它有兩種形式。聚集聚類(agglomerative clustering)是一種「自下而上」的方法,其中每個觀察(observation)在其自己的聚類中開始,隨著其在層次中向上移動,成對的聚類會進行融合。**聚類(divisive clustering)則是一種「自上而下」的方法,其中所有的觀察都從乙個聚類開始,並且會隨觀察向下的層次移動而遞迴式地**。整體而言,這裡的融合和**是以一種激進的方式確定的。層次聚類的結果通常表示成樹狀圖(dendrogram)的形式。

k-均值聚類(k-means clustering)的目標是將 n 組觀測值分為 k 個聚類,其中每個觀測值都屬於其接近的那個均值的聚類——這些均值被用作這些聚類的原型。這會將資料空間分割成 voronoi 單元。

k 最近鄰(k-nearest neighbors / k-nn)是用於分類和回歸的非引數方法。在這兩種情況下,輸入都是由特徵空間中與 k 最接近的訓練樣本組成的。在 k-nn 分類中,輸出是乙個類成員。物件通過其 k 最近鄰的多數投票來分類,其中物件被分配給 k 最近鄰中最常見的類(k 為一正整數,通常較小)。在 k-nn 回歸中,輸出為物件的屬性值。該值為其 k 最近鄰值的平均值。

單類支援向量機(one-class svm):使用了非線性支援向量機的乙個巧妙的擴充套件,單類支援向量機可以描繪乙個嚴格概述整個資料集的邊界。遠在邊界之外的任何新資料點都是非正常的,值得注意。

機器學習 分類,回歸,聚類 評價指標

機器學習 分類,回歸,聚類 評價指標 分類問題 roc 接收操作者特徵曲線 最早用於雷達訊號檢測領域,用於區分訊號與雜訊。現用來評價模型的 能力,roc曲線基於混淆矩陣得出的。兩個指標 真陽率 tpr 為縱座標與假陽率 fpr 為橫座標 tpr越高,同時fpr越低 即roc曲線越陡 模型效能越好 a...

機器學習 分類 回歸 聚類 降維

一 分類 樸素貝葉斯 貝葉斯分類法是基於貝葉斯公式 先驗概率和後驗概率的關係 的統計學分類方法。它通過 乙個給定的元組屬於乙個特定類的概率,來進行分類。logistic回歸 logistic回歸得出 值後,根據 值大小進行分類。通常是二分類 決策樹基於樹的結構來進行決策 支援向量機svm suppo...

聚類方法分類

1.原型聚類 典型的做法是k means,首先設定k個類別,隨機的在總體樣本中選擇k個樣本作為聚類中心,然後遍歷所有樣本點,把所有樣本點分類到k個類中 以最短距離為標準 然後更新k個樣本的樣本中心,再重新劃分所有的樣本點。停止條件可以設定為樣本的變化幅度不大的情況,或者兩次的損失函式變化不大的情況。...