two steps 對數似然距離數值變數計算

當已有了二步聚類法的訓練結果，怎麼固化到其他新樣本

按照上面的式子對新的樣本進行類別判斷的時候，依然如同k-means一樣，計算距離然後選擇最近的類作為新樣本的類別標記。

上面的式子是計算2個類別之間的距離，有方差，而樣本作為單個，方差為0，由資料在處理前是經過對中方差單位化，所以類別和樣本之間的距離可以化成下式：

根據上面的思路進行了sql指令碼編寫，固化後與之前訓練時20w資料進行比對，匹配率96.6% 。

這裡面有個問題沒想清楚：距離的計算涉及類別的數量，當數量越大豈不是越削弱新增樣本點對整體的波動，可以造成，任何新樣本點與各分類之間距離差異變小。但是嘗試了把各群從真實數量不斷除以10 ，然後嘗試不同加權判類結果，縮小各類數量反而增加了誤差，不過也不是很大 95%吻合。選擇真實群數的準確率最高，且裡面被誤判的類與正確的類之間的距離差異小：

另外，如果輸入變數均為數值型變數，那麼可以採用歐氏距離。

用歐式距離進行重新判類，準確率也可高達 94% …… 如果沒有分類變數的話，還是使用歐氏距離吧。

remain: 兩步聚類為什麼有誤分類項依然不知·！·決定無視

對數似然函式理解

對數似然函式 log likelihood 機器學習裡面，對模型的訓練都是對loss function進行優化，在分類問題中，我們一般使用最大似然估計 maximum likelihood estimation 來構造損失函式。對於輸入的x，其對應的類標籤為t，我們的目的是找到使p t x 最大的模...

logisitic回歸代價函式對數似然法原理詳解

關於對數似然法原理，網上部落格眾說紛紜，但能說清楚，解釋對數似然公式為何如此卻寥寥無幾。今天我就發個部落格，來和大家討論一下。正文如下對數學家們提供的最簡式改為以下通俗易懂式，先不要拿走符號以便理解上述的對數似然代價公式m為樣本數量，x為樣本，y為標籤，為權重向量。上式由兩部分組成，分別對應了標...

似然函式與最大似然估計

概率用於在已知一些引數的情況下，接下來的觀測所得到的結果，而似然性則是用於在已知某些觀測所得到的結果時，對有關事物性質的引數進行估計。是一種關於統計模型中引數的函式。例如，已知有事件a發生，運用似然函式，我們估計引數b的可能性。表明在已知觀測結果情況下，似然函式的值越高，該引數值可使模型越合理。最大...

two steps 對數似然距離 數值變數計算

對數似然函式理解

logisitic回歸代價函式對數似然法原理詳解

似然函式與最大似然估計

相關推薦

two steps 對數似然距離數值變數計算