分類回歸聚類異常檢測

支援向量機（svm）可用於找到盡可能寬的分類的邊界。當兩個分類不能被清楚地分開時，該演算法會找到其所能找到的最佳邊界。其真正的亮點在於處理特徵密集的資料，比如文字或者基因組（特徵數量》 100）。在這些情況下，除了僅需要適量的記憶外，支援向量機（svm）能夠比其它大多數演算法更快且更少過擬合地進行分類。

人工神經網路是涵蓋二分類、多分類和回歸問題的腦啟發式學習演算法。它們有無限的種類，包括感知器和深度學習。它們需要很長時間來訓練，但已知其在多種應用領域都實現了當前最佳的表現。

logistic 回歸：即便名字中有著「回歸」，但 logistic 回歸實際上是一種可用於二分類和多分類問題的強大工具。它快速且簡單。事實上，它使用「s」形曲線而非直線，所以它自然適合用於資料分組。logistic 回歸可以給出線性分類邊界，所以如果你要使用它，你一定要確保你能接受線性的近似。

決策樹和隨機森林：決策森林（decision forests）（回歸、二分類、多分類），決策叢林（decision jungles）（二分類和多分類）和提公升決策樹（boosted decision trees）（回歸和二分類）都基於決策樹。這是乙個基本的機器學習概念。決策樹有許多不同的變體，但它們都在做同樣的事情—將特徵空間（feature space）細分為具有大致相同標籤的區域。這些區域可以是一致的類別或者恆定值，具體取決於你進行的是分類還是回歸。

線性回歸是將一條線（或平面、或超平面）擬合到乙個資料集上。這是一種主要的工具，簡單且快速，但對於一些問題而言，它可能過於簡單。

貝葉斯線性回歸有著非常理想的特性：它可以避免過擬合。貝葉斯方法通過事先對答案的可能分布做出一些假設來做到這一點。這種方法的另乙個副產品是它們具有非常少的引數。

提公升決策樹回歸（boosted decision tree regression）：如上所述，提公升決策樹（回歸和二分類）均基於決策樹，並通過將特徵空間細分為具有大致相同標籤的區域發揮效用。提公升決策樹通過限制其可以細分的次數以及每個區域中所允許的最少資料點來避免過擬合。該演算法會構造乙個樹的序列，其中每棵樹都會學習彌補之前的樹留下來的誤差。這能得到乙個會使用大量的記憶體的非常精確的學習器。

層次聚類（hierarchical clustering）的目標是構建聚類的層次結構，它有兩種形式。聚集聚類（agglomerative clustering）是一種「自下而上」的方法，其中每個觀察（observation）在其自己的聚類中開始，隨著其在層次中向上移動，成對的聚類會進行融合。**聚類（divisive clustering）則是一種「自上而下」的方法，其中所有的觀察都從乙個聚類開始，並且會隨觀察向下的層次移動而遞迴式地**。整體而言，這裡的融合和**是以一種激進的方式確定的。層次聚類的結果通常表示成樹狀圖（dendrogram）的形式。

k-均值聚類（k-means clustering）的目標是將 n 組觀測值分為 k 個聚類，其中每個觀測值都屬於其接近的那個均值的聚類——這些均值被用作這些聚類的原型。這會將資料空間分割成 voronoi 單元。

k 最近鄰（k-nearest neighbors / k-nn）是用於分類和回歸的非引數方法。在這兩種情況下，輸入都是由特徵空間中與 k 最接近的訓練樣本組成的。在 k-nn 分類中，輸出是乙個類成員。物件通過其 k 最近鄰的多數投票來分類，其中物件被分配給 k 最近鄰中最常見的類（k 為一正整數，通常較小）。在 k-nn 回歸中，輸出為物件的屬性值。該值為其 k 最近鄰值的平均值。

單類支援向量機（one-class svm）：使用了非線性支援向量機的乙個巧妙的擴充套件，單類支援向量機可以描繪乙個嚴格概述整個資料集的邊界。遠在邊界之外的任何新資料點都是非正常的，值得注意。

分類回歸聚類異常檢測

機器學習分類，回歸，聚類評價指標

機器學習分類回歸聚類降維

聚類方法分類

分類 回歸 聚類 異常檢測

機器學習 分類，回歸，聚類 評價指標

機器學習 分類 回歸 聚類 降維

聚類方法分類

相關推薦

分類回歸聚類異常檢測

機器學習分類，回歸，聚類評價指標

機器學習分類回歸聚類降維