如何解決大量樣本標註問題

2021-06-19 00:29:47 字數 1436 閱讀 9860

tsvm  常見的解決未標註樣本的方法有em (expectation maximization) 演算法 ,協同訓練法,transductive svm 方法及最大熵判別法等.    

下面首先介紹一下tsvm,並以入侵檢測為例介紹。在傳統的isvm中,訓練svm學習機需要大量經過標記的樣本,而正確標記的樣本是很難大量獲取的。如果能

把未標記樣本的特徵加入到入侵檢測演算法的設計中去,就可以彌補歸納式svm帶來的缺陷

,獲得更好的檢測效果。直推式svm 正是基於這種思想的svm演算法。

tsvm是一種不依賴於推廣性思想的經驗推理。由於其是從特殊到特殊的推理,難以直接進行客觀驗證。因此,直到現在才開始得到人們研究的重視,但它已經在一些領域中(例如生物基因選擇,數字識別)取得了初步結果,甚至表現出了比傳統isvm更好的效能。直推式svm 的決策分類函式是建立在訓練集strain和測試集stest 的基礎上。

由於徑向基函式(radial basis function,rbf)在高維空間分類問題中的優越表現,我們選取rbf作為svm分類器的核函式。在tsvm學習期間,測試樣本就對其施加了影響。因此,tsvm學習的結果中就包含了測試樣本的資料特徵。經過學習後,tsvm就會產生乙個分類決策函式,即最優分類超平面。測試樣本經過tsvm分類器處理後,再由入侵檢測決策系統根據分類結果來判斷是否有攻擊行為的發生。為了盡可能將正常資料和攻擊資料正確地區分,以提高入侵檢測的檢測率,tsvm試圖尋找最優分類超平面。而tsvm的有效學習是非常重要的,其具體的學習過程如下:

(1)tsvm根據指定的懲罰因子c和c*,利用訓練資料中包含的正負標籤的網路資料進行歸納式學習,得到乙個比較原始的樣本分類器。隨後,tsvm假定訓練集中無標記網路資料樣本中正負樣本的比例為1:1,並指定乙個訓練集中無標籤樣本的臨時懲罰因子c*temp。

(2)tsvm用得到的樣本分類器對訓練集中的無標籤樣本進行重新分類,根據分類器對無標籤網路資料記錄的判別結果,對無標籤資料作出正負分類判決,並將判決值較大的一半樣本標記為正標籤,另外一半標記為負樣本。

(3)用得到的經過重新標記的訓練集資料對tsvm學習機進行重新訓練,得到新的分類器。然後,按一定的規則交換一對標籤值不同的訓練樣本的標籤符號,即把起初標記為正樣本的未標記樣本中標記為負樣本,起初標記為負樣本的標記為正樣本,計算式(2)的值,使得問題(2)的值獲得最大下降。反覆執行訓練樣本標籤的變換,直到找不出滿足交換條件的樣本為止。

(4)均勻地增加未標記樣本的懲罰因子c*temp的值,並重新執行步驟(3),直到c*temp≥c 時,tsvm 的學習結束。

當tsvm終止學習後,就可以用學習得到的分類器對測試樣本進行分類判別。入侵檢測決策系統根據tsvm分類器分類的結果作出是否有入侵行為發生的判斷。tsvm在學習的過程中,結合了大量的未標記網路資料的資訊,並反覆調整未標記資料對tsvm學習機的影響,以追求對無標籤樣本的最小分類誤差。因此,基於tsvm的入侵檢測系統比基於isvm的檢測系統需要更長的學習時間,但是由於結合了測試樣本的影響,在對測試樣本分類的準確度上也會得到一定程度的提高。

如何解決PHP查詢大量資料記憶體耗盡的問題

從資料庫查詢大量資料時會出現內容不夠的提示 php fatal error allowed memory size of 268 435 456 bytes exhausted 這個問題在php的官方 上叫緩衝查詢和非緩衝查詢 buffered and unbuffered queries php的...

機器學習中國如何解決正負樣本不均衡問題

抽樣是解決樣本分佈不均衡相對簡單且常用的方法,包括過抽樣和欠抽樣兩種。過抽樣過抽樣 也叫上取樣 over sampling 方法通過增加分類中少數類樣本的數量來實現樣本均衡,最直接的方法是簡單複製少數類樣本形成多條記錄,這種方法的缺點是如果樣本特徵少而可能導致過擬合的問題 經過改進的過抽樣方法通過在...

機器學習中如何解決樣本不均衡的問題?

1.上取樣和下取樣 上取樣 通過增加分類中少數類樣本的數量來實現樣本均衡,最直接的方法是簡單複製少數類樣本形成多條記錄,這種方法的缺點是如果樣本特徵少而可能導致過擬合的問題 經過改進的過抽樣方法通過在少數類中加入隨機雜訊 干擾資料或通過一定規則產生新的合成樣本。下取樣 通過減少分類中多數類樣本的樣本...