201119西瓜書系列部落格 13 半監督學習

2022-02-24 08:28:06 字數 2849 閱讀 4465

【主動學習仍需互動】:顯然,主動學習需要與外界進行互動/查詢/打標,其本質上仍然屬於一種監督學習。

【無標記資料其實大有裨益】:事實上,無標記樣本雖未包含標記資訊,但它們與有標記樣本一樣都是【從總體中獨立同分布取樣得到】,因此它們所包含的資料分布資訊對學習器的訓練大有裨益。

【自動利用未標記樣本便是半監督學習】:讓學習過程不依賴外界互動,自動利用未標記樣本所包含的分布資訊的方法便是半監督學習(semi-supervised learning),即訓練集同時包含有標記樣本資料和未標記樣本資料。訓練樣本集d由有標記樣本集d_l和未標記樣本集d_u組成,若使用傳統監督學習演算法,則只能使用d_l,【d_u的資訊被浪費】,學得模型的泛化能力往往不佳。

如何【將d_u也利用起來】是半監督學習的目標。

一種簡單的做法是通過【專家知識】對d_u的樣本全部標記後用於學習,但需要【耗費巨大的人力】。【先訓練後對未標記資料**】:若我們先使用有標記的樣本資料集訓練出乙個學習器,再基於該學習器對未標記的樣本進行**,

【不確定的**諮詢專家】:從中挑選出不確定性高或分類置信度低的樣本來諮詢專家並進行打標,

【擴充後的訓練集重新訓練學習器】:最後使用擴充後的訓練集重新訓練學習器,這樣便能大幅度降低標記成本,這便是主動學習(active learning),

其目標是【使用盡量少的/有價值的諮詢】來獲得【更好的效能】。【純半監督學習】假定訓練資料集中的未標記資料【並非待**資料】

【直推學習】假定學習過程中的未標記資料【就是待**資料】,學習的目的是在這些未標記樣本上獲得【最優泛化效能】【生成式方法】是直接基於生成式模型的方法。此類方法假設所有資料(無論是否有標記)都是【由乙個潛在的模型「生成的」】。

這個假設使得可以通過潛在模型的未知引數將【樣本的未知標記】與【學習目標】聯絡起來,通常【可基於em演算法進行極大似然估計求解】。

生成式方法的區別主要在於【生成式模型的假設】,不同的模型假設將產生不同的方法。假設樣本由【高斯混合模型】生成,且每個類別對應乙個高斯混合成分。

資料樣本是基於如下概率密度生成:$$p ( x ) = \sum _ ^ \alpha _ \cdot p ( x | \mu _ , \sigma _ )$$

直觀上來看,基於半監督的高斯混合模型有機地【整合了貝葉斯分類器與高斯混合聚類的核心思想】,有效地利用了未標記樣本資料隱含的分布資訊,從而使得引數的估計更加準確。

可使用【em演算法】求解高斯混合模型引數估計【將高斯混合模型換成混合專家模型、樸素貝葉斯模型等】即可推導出其他的生成式半監督學習方法。

此類方法【簡單,易於實現】,在有標記資料極少的情形下往往比其他方法【效能更好】。

然而,此類方法有乙個關鍵:【模型假設必須準確】,即假設的生成式模型必須與真實資料分布吻合;否則利用未標記資料【反倒會降低泛化效能】。

蛋疼的是,現實任務中往往很難事先做出準確的模型假設,【除非擁有充分可靠的領域知識】。監督學習中的svm試圖找到乙個劃分超平面,使得兩側支援向量之間的間隔最大,即【「最大劃分間隔」思想】。tsvm是半監督支援向量機中的最著名代表,與標準svm一樣都是針對【二分類】的演算法,

其核心思想是:嘗試【為未標記樣本找到合適的標記指派】,使得超平面劃分後的間隔最大化。

tsvm採用【區域性搜尋】的策略來進行【迭代求解】,

即首先使用有標記樣本集訓練出乙個【初始svm】,接著【使用該學習器對未標記樣本進行打標】,這樣所有樣本都有了標記,並【基於這些有標記的樣本重新訓練svm】,之後再尋找易出錯樣本不斷調整。與生成式方法和半監督svm等基於單學習器利用未標記資料不同,基於分歧的方法使用【多學習器】,而學習器之間的「分歧」對未標記資料的利用至關重要。

基於分歧的方法通過【多個學習器之間的分歧(disagreement)/多樣性(diversity)】來利用未標記樣本資料,【協同訓練】就是其中的一種經典方法。

協同訓練最初是針對於【多檢視(multi-view)資料】而設計的,多檢視資料指的是【樣本物件具有多個屬性集】,每個屬性集則對應乙個檢視。

例如:電影資料中就包含畫面類屬性和聲音類屬性,這樣畫面類屬性的集合就對應著乙個檢視。【相容性】:即使用【單個檢視資料】訓練出的學習器的【輸出空間是一致】的。例如都是、等。

【互補性】:即【不同檢視】所提供的資訊是【互補/相輔相成】的,實質上這裡體現的就是【整合學習】的思想。

協同訓練正是很好地利用了多檢視資料的【「相容互補性」】,其基本的思想是:首先基於有標記樣本資料在每個檢視上都訓練乙個【初始分類器】,然後讓每個分類器去【挑選分類置信度最高的樣本並賦予標記】,並將【帶有偽標記的樣本資料傳給另乙個分類器去學習】,從而相互學習相互進步。協同訓練演算法本身是為【多檢視資料】而設計的,但此後出現了一些能在單檢視資料上使用的變體演算法,也能有效地利用未標記資料提公升效能。

後續理論研究發現,此類演算法事實上【無需資料擁有多檢視】,【僅需弱學習器之間有顯著的分歧】,即可通過【互相提供偽標記】樣本的方式來【提公升泛化效能】。

基於分歧的方法【只需要採用合適的基學習器】,就能較少受到模型假設,損失函式非凸性和資料規模問題的影響,學習方法簡單有效、理論基礎相對堅實、使用範圍較為廣泛。聚類是【典型的無監督學習任務】,但是在現實聚類任務中我們往往能獲得一些【額外的監督資訊】:

【必連和勿連約束】,於是可通過半監督聚類來利用監督資訊來獲得更好的聚類效果。

【必連】:樣本【必定屬於同乙個簇】

【勿連】:樣本【必定不屬於同乙個簇】,監督資訊是少量的有標記樣本【約束k均值演算法】是利用第一類監督資訊【「必連」「勿連」】的代表。

與k-means的區別在於【給定必連關係集合和勿連關係集合】,在聚類過程中確保必連關係集合和勿連關係集合的【約束】得到滿足,否則將返回錯誤提示。給定樣本集d,其中包含屬於【各個聚類簇的有標記樣本】,這樣的監督資訊利用起來很容易:

直接將它們作為【「種子」】,用它們初始化k均值演算法的【k個聚類中心】,並且在聚類簇迭代更新過程中不改變種子樣本的【簇隸屬關係】。**或參考:西瓜書學習筆記——第十三章:半監督學習_andrewings-csdn部落格

201119西瓜書系列部落格 1 緒論

要善於憑藉,這樣萬利無害通常假設樣本空間中全體樣本服從某個未知分布,我們獲得的每個樣本都是獨立地從這個分布上取樣獲得的 即 獨立同分布 一般而言 訓練樣本越多 得到關於該未知分布的資訊越多 越可能獲得具有強泛化能力的模型 歸納 特殊 一般的 泛化 generalization 過程 從具體事實歸結出...

201119西瓜書系列部落格 9 聚類任務

9.1 聚類任務 9.2 效能度量 9.3 距離計算 9.4 原型聚類 以原型方式聚類 9.5 密度聚類 以密度方式聚類 9.6 層次聚類 以層次方式聚類聚類試圖將資料集中的 樣本劃分為若干個通常是不相交的子集 每個子集稱為乙個簇 cluster 但需注意的是,聚類過程僅能自動形成簇結構,簇所對應的...

201119西瓜書系列部落格 5 神經網路

5.2 感知機與多層網路 5.3 誤差逆傳播演算法 5.4 全域性最小與區域性極小 5.5 深度學習 operatorname x left end right.階躍函式具有 不連續不光滑等 不太好的性質,因此實際常用sigmoid函式作為啟用函式。感知機 perceptron 由 兩層神經元 組成...