如何解決大量樣本標註問題

tsvm 常見的解決未標註樣本的方法有em (expectation maximization) 演算法 ,協同訓練法,transductive svm 方法及最大熵判別法等.

下面首先介紹一下tsvm，並以入侵檢測為例介紹。在傳統的isvm中，訓練svm學習機需要大量經過標記的樣本，而正確標記的樣本是很難大量獲取的。如果能

把未標記樣本的特徵加入到入侵檢測演算法的設計中去，就可以彌補歸納式svm帶來的缺陷

，獲得更好的檢測效果。直推式svm 正是基於這種思想的svm演算法。

tsvm是一種不依賴於推廣性思想的經驗推理。由於其是從特殊到特殊的推理，難以直接進行客觀驗證。因此，直到現在才開始得到人們研究的重視，但它已經在一些領域中(例如生物基因選擇，數字識別)取得了初步結果，甚至表現出了比傳統isvm更好的效能。直推式svm 的決策分類函式是建立在訓練集strain和測試集stest 的基礎上。

由於徑向基函式(radial basis function,rbf)在高維空間分類問題中的優越表現，我們選取rbf作為svm分類器的核函式。在tsvm學習期間，測試樣本就對其施加了影響。因此，tsvm學習的結果中就包含了測試樣本的資料特徵。經過學習後，tsvm就會產生乙個分類決策函式，即最優分類超平面。測試樣本經過tsvm分類器處理後，再由入侵檢測決策系統根據分類結果來判斷是否有攻擊行為的發生。為了盡可能將正常資料和攻擊資料正確地區分，以提高入侵檢測的檢測率，tsvm試圖尋找最優分類超平面。而tsvm的有效學習是非常重要的，其具體的學習過程如下：

(1)tsvm根據指定的懲罰因子c和c*，利用訓練資料中包含的正負標籤的網路資料進行歸納式學習，得到乙個比較原始的樣本分類器。隨後，tsvm假定訓練集中無標記網路資料樣本中正負樣本的比例為1：1，並指定乙個訓練集中無標籤樣本的臨時懲罰因子c*temp。

(2)tsvm用得到的樣本分類器對訓練集中的無標籤樣本進行重新分類，根據分類器對無標籤網路資料記錄的判別結果，對無標籤資料作出正負分類判決，並將判決值較大的一半樣本標記為正標籤，另外一半標記為負樣本。

(3)用得到的經過重新標記的訓練集資料對tsvm學習機進行重新訓練，得到新的分類器。然後，按一定的規則交換一對標籤值不同的訓練樣本的標籤符號，即把起初標記為正樣本的未標記樣本中標記為負樣本，起初標記為負樣本的標記為正樣本，計算式(2)的值，使得問題(2)的值獲得最大下降。反覆執行訓練樣本標籤的變換，直到找不出滿足交換條件的樣本為止。

(4)均勻地增加未標記樣本的懲罰因子c*temp的值，並重新執行步驟(3)，直到c*temp≥c 時，tsvm 的學習結束。

當tsvm終止學習後，就可以用學習得到的分類器對測試樣本進行分類判別。入侵檢測決策系統根據tsvm分類器分類的結果作出是否有入侵行為發生的判斷。tsvm在學習的過程中，結合了大量的未標記網路資料的資訊，並反覆調整未標記資料對tsvm學習機的影響，以追求對無標籤樣本的最小分類誤差。因此，基於tsvm的入侵檢測系統比基於isvm的檢測系統需要更長的學習時間，但是由於結合了測試樣本的影響，在對測試樣本分類的準確度上也會得到一定程度的提高。

如何解決大量樣本標註問題

如何解決PHP查詢大量資料記憶體耗盡的問題

機器學習中國如何解決正負樣本不均衡問題

機器學習中如何解決樣本不均衡的問題？

如何解決大量樣本標註問題

如何解決PHP查詢大量資料記憶體耗盡的問題

機器學習中國如何解決正負樣本不均衡問題

機器學習中如何解決樣本不均衡的問題？

相關推薦