異常點檢測演算法

異常點檢測演算法：

對於train data 中的資料，對其中重要的特徵（或者每個特徵）x1, x2, … xn，計算其高斯分布

對new data，計算 x 每個特徵在訓練資料分布下的 p 值並相乘，若p(x) 小於某個臨界值，則判斷其為異常點

什麼時候選擇使用 p(x) ，根據分布概率來判斷異常點，什麼時候使用監督模型？

當正樣本數量特別少的時候，且無法覆蓋所有情況的時候，使用 p(x)

當正樣本數量足夠多的的時候，且未來的正樣本和訓練集相似的時候，使用監督學習

多元高斯分布：

綠色的點是異常點，如果使用上述異常檢測演算法，p(x) = p(x1) * p(x2)，會發現 p(x1) *和 p(x2) 的概率值都不小，乘積也屬於正常範圍，但是明顯的不符合 x1 和 x2 共同的分布，這時就無法判斷異常點了。

在資料探勘方面，經常需要在做特徵工程和模型訓練之前對資料進行清洗，剔除無效資料和異常資料。異常檢測也是資料探勘的乙個方向，用於反作弊偽基站金融詐騙等領域。異常檢測方法，針對不同的資料形式，有不同的實現方法。常用的有基於分布的方法，在上下分位點之外的值認為是異常值例如圖1 對於屬性值常用此類...

異常檢測演算法目的在於從影像中將目標資訊異常資訊從影響背景和雜訊中分離出來。rx異常檢測演算法為一種區域性目標檢測演算法，演算法的監測視窗包括目標視窗和背景視窗，且後者遠大於前者。rx演算法假設資料空間白化且服從高斯分布，在此基礎上通過分析視窗的統計量均值和方差並與設定的閾值比較判斷是否為異...