半監督學習之self training

2021-08-19 19:33:12 字數 1375 閱讀 8036

半監督學習是一種介於監督式學習和無監督學習之間的學習正規化,我們都知道,在監督式學習中,樣本的類別標籤都是已知的,學習的目的找到樣本的特徵與類別標籤之間的聯絡。一般來講訓練樣本的數量越多,訓練得到的分類器的分類精度也會越高。但是在很多現實問題當中,一方面由於人工標記樣本的成本十分高昂,導致了有標籤的樣本十分稀少。而另一方面,無標籤的樣本很容易被收集到,其數量往往是有標籤樣本的上百倍。半監督學習(這裡僅針對半監督分類)就是要利用大量的無標籤樣本和少量的有標籤樣本來訓練分類器,解決有標籤樣本不足這個難題。

self-training可能是最早被提出來的半監督學習方法,最早可以追溯到scudder(1965)。self-training相比其它的半監督學習方法的優勢在於簡單以及不需要任何假設。

上面是self-training的演算法流程圖,簡單解釋一下:

1,將初始的有標籤資料集作為初始的訓練集(x

trai

n,yt

rain

)=(x

l,yl

) (xt

rain

,ytr

ain)

=(xl

,yl)

,根據訓練集訓練得到乙個初始分類器ci

ntc in

t。 2,利用ci

ntc in

t對無標籤資料集xu

x

u中的樣本進行分類,選出最有把握的樣本(x

conf

,yco

nf) (xc

onf,

ycon

f)3,從xu

x

u中去掉(x

conf

,yco

nf) (xc

onf,

ycon

f)4,將(x

conf

,yco

nf) (xc

onf,

ycon

f)加入到有標籤資料集中,(x

trai

n,yt

rain

)←(x

l,yl

)∪(x

conf

,yco

nf) (xt

rain

,ytr

ain)

←(xl

,yl)

∪(xc

onf,

ycon

f)5,根據新的訓練集訓練新的分類器,重複步驟2到5直到滿足停止條件(例如所有無標籤樣本都被標記完了)

最後得到的分類器就是最終的分類器。

半監督學習

一般認為,半監督學習的研究始於 b.shahshahani 和 d.landgrebe 的工作 shahshahanil94 但未標記示例的價值實際上早在上世紀 80 年代末就已經被一些研究者意識到了 lippman89 d.j.miller 和 h.s.uyar milleru97 認為,半監督學...

半監督學習

最近的一段時間一直在學習半監督學習演算法,目前,國內的南京大學周志華老師是這方面的泰斗,寫了很多這方面牛的文章,可以參考一下他的主頁 在國內的學術界周老師一直是我比較欽佩的人之一。下面貼出來的文章出自周老師之手,通俗易懂。受益匪淺。一般認為,半監督學習的研究始於 b.shahshahani 和 d....

半監督學習

目前,國內的南京大學周志華老師是這方面的泰斗,寫了很多這方面牛的文章,可以參考一下他的主頁 下面貼出來的文章出自周老師之手,通俗易懂。受益匪淺。一般認為,半監督學習的研究始於 b.shahshahani 和 d.landgrebe 的工作 shahshahanil94 但未標記示例的價值實際上早在上...