two steps 對數似然距離 數值變數計算

2021-06-29 13:05:05 字數 695 閱讀 6005

當已有了二步聚類法的訓練結果,怎麼固化到其他新樣本

按照上面的式子 對新的樣本進行類別判斷的時候,依然如同k-means一樣,計算距離 然後選擇最近的類 作為新樣本的類別標記。

上面的式子是計算2個類別之間的距離,有方差,而樣本作為單個,方差為0,由資料在處理前是經過對中方差單位化,所以類別和樣本之間的距離可以化成下式:

根據上面的思路進行了sql指令碼編寫,固化後與之前訓練時20w資料進行比對,匹配率96.6% 。

這裡面有個問題沒想清楚:距離的計算涉及 類別的數量,當數量越大豈不是越削弱新增樣本點對整體的波動,可以造成,任何新樣本點與各分類之間距離差異變小。但是嘗試了把各群從真實數量不斷除以10 ,然後嘗試不同加權判類結果,縮小各類數量 反而增加了誤差,不過也不是很大 95%吻合。選擇真實群數 的準確率最高,且裡面被誤判的類與正確的類之間的距離差異小:

另外,如果輸入變數均為數值型變數,那麼可以採用 歐氏距離。

用歐式距離進行重新判類,準確率也可高達 94% …… 如果沒有分類變數的話,還是使用歐氏距離 吧。

remain: 兩步聚類為什麼有誤分類項 依然不知·!·決定無視

對數似然函式理解

對數似然函式 log likelihood 機器學習裡面,對模型的訓練都是對loss function進行優化,在分類問題中,我們一般使用最大似然估計 maximum likelihood estimation 來構造損失函式。對於輸入的x,其對應的類標籤為t,我們的目的是找到使p t x 最大的模...

logisitic回歸代價函式對數似然法原理詳解

關於對數似然法原理,網上部落格眾說紛紜,但能說清楚,解釋對數似然公式為何如此卻寥寥無幾。今天我就發個部落格,來和大家討論一下。正文如下 對數學家們提供的最簡式改為以下通俗易懂式,先不要拿走符號以便理解 上述的對數似然代價公式m為樣本數量,x為樣本,y為標籤,為權重向量。上式由兩部分組成,分別對應了標...

似然函式與最大似然估計

概率用於在已知一些引數的情況下,接下來的觀測所得到的結果,而似然性則是用於在已知某些觀測所得到的結果時,對有關事物性質的引數進行估計。是一種關於統計模型中引數的函式。例如,已知有事件a發生,運用似然函式,我們估計引數b的可能性。表明在已知觀測結果情況下,似然函式的值越高,該引數值可使模型越合理。最大...