機器學習資料預處理之離群點 高槓桿點 強影響點

2021-10-22 13:08:34 字數 2065 閱讀 1584

對於一組資料擬合模型時,我們希望保持擬合結果不要過度依賴於乙個或幾個觀測,於是我們想知道這種點是否存在。離群點、高槓桿點、強影響點,都是資料觀測中常見的異常資料形式,下面分別從概念,檢測方法和處理方法三方面來談論

虛線和實線分別是包含紅點在內和不包含紅點在內訓練出來的回歸模型。可以看到,兩條回歸線之間相差不大,因此,該紅點不是強影響點。

同時,該紅點並沒有離其他自變數的值很遠,因此也不是高槓桿點。但是它離回歸線很遠(殘差大),因此該紅點是離群點。

虛線和實線分別是包含紅點在內和不包含紅點在內訓練出來的回歸模型。可以看到,兩條回歸線之間相差不大,因此,該紅點不是強影響點。

同時,該紅點離回歸線不遠,因此也不是離群點。但是它離其他自變數的值很遠,因此該紅點是高槓桿點。

虛線和實線分別是包含紅點在內和不包含紅點在內訓練出來的回歸模型。可以看到,兩條回歸線之間相差較大,因此,該紅點是強影響點。

同時,該紅點離其他自變數的值較遠,因此是高槓桿點。它離回歸線也很遠(殘差大),因此該紅點也是離群點。

注意:

1,離群點不一定是強影響點,強影響點也不一定是異常點

2,高槓桿點不一定是強影響點,強影響點也不一定是高槓桿點

上面的圖例是簡單線性回歸,在實際應用中,通常有多個自變數,因此在高維空間中,我們不可能通過畫圖來判斷某個觀測值是否是異常點或高槓桿點或強影響點。我們可以通過其他的統計指標來進行檢測。

1,離群點檢測

(1)標準化殘差(standardized residuals):

(2)學生化殘差(studentized residuals):

2,高槓桿點檢測

判斷高槓桿值點的方法,是計算點的槓桿值,槓桿值大於兩倍平均值的觀測就是x空間中的異常觀測

3,強影響點檢測

(1)cook距離法(cook's d):

(2)dffits(difference in fits):比較去除某乙個資料點和包含此資料點的**值y的變化。可以呼叫r的influence.measures()做診斷。

(3)dfbetas:比較去除某乙個資料點和包含此資料點的每個變數引數的變化。可以呼叫r的influence.measures()做診斷。

離群點、高槓桿點和強影響點觀測可能是資訊最多的資料點,他們不應該被沒有道理的自動丟棄。相反,我們應該檢查清楚它們為什麼會異常或具有強影響。基於這些檢查,才能採取適當的,正確的措施,包括:

1.糾正錯誤資料

2.刪除異常點

3.降低異常點的權重

4.變換資料

5.考慮不同的模型

6.重新設計實驗或抽樣

7.收集更多資料

參考文獻

2.異常點vs高槓桿點vs強影響點(outlier ,high leverage point,influential point)

3 《例解回歸分析》(原書第五版)(美)samprit chatterjee   ali s.hadi 著

機器學習之資料預處理

1.為什麼需要資料預處理?原始資料來自於現實場景,常常有以下幾個特徵 髒 亂 差 缺。髒體現在原始資料裡混雜許多雜訊資料,亂體現在原始資料各維度量綱不同一。差體現在資料錯誤 出現不尋常不一致,這和髒相似。缺體現在原始資料的某些資料段值的缺失。2.資料預處理的方法。歸一化 標準化和中心化是資料預處理中...

機器學習之資料預處理

from sklearn.preprocessing import standardscaler x scaler standardscaler y scaler standardscaler x train x scaler.fit transform x train y train y scal...

機器學習之資料預處理

資料預處理方法 均值移除 範圍縮放 二值化歸一化 獨熱編碼 標籤編碼 直接呼叫api介面進行處理 輸入 輸出 0.5 5.0 0.6 5.5 0.8 6.0 1.1 6.8 1.4 7.0 y f x 函式 y w0 w1x x 輸入 y 輸出 w0和w1 模型引數 所謂模型訓練,就是根據已知的x和...