半監督學習解釋

2021-10-06 09:28:02 字數 1930 閱讀 8440

傑夫·貝佐斯(jeff bezos)在2023年的亞馬遜股東信中寫了有關亞馬遜語音驅動智慧型助手alexa的一些有趣資訊:

在美國,英國和德國,通過增強alexa的機器學習元件和使用半監督學習技術,我們在過去12個月中已將alexa的口語理解提高了25%以上。 (這些半監督學習技術將實現相同精度提高所需的標記資料量減少了40倍!)

鑑於這些結果,嘗試對我們自己的分類問題進行半監督學習可能會很有趣。 但是什麼是半監督學習? 它的優缺點是什麼? 我們如何使用它?

[理解機器學習的意義: 人工智慧,機器學習和深度學習:您需要知道的一切 。|機器學習的解釋 。|機器學習演算法進行了解釋 。|深度學習解釋了 。|通過infoworld大資料和分析報告時事通訊深入了解分析和大資料。]

就像您可能從名稱中期望的那樣,半監督學習介於監督學習和非監督學習之間 。 有監督的學習從帶有正確答案(目標值)的訓練資料開始。 學習過程結束後,您將獲得乙個具有一組權重調整模型的模型,該模型可以**尚未標記的相似資料的答案。

半監督學習使用標記和未標記的資料來擬合模型。 在某些情況下,例如alexa,新增未標記的資料實際上可以提高模型的準確性。 在其他情況下,未標記的資料會使模型更糟。 我將在下面討論,不同的演算法對不同的資料特​​徵具有脆弱性。

通常,為資料加標籤會花費金錢並花費時間。 這並不總是乙個問題,因為某些資料集已經具有標籤。 但是,如果您有很多資料,但其中只有一部分被標記,那麼半監督學習是一種很好的嘗試方法。

半監督學習至少可以追溯到15年,甚至可能更長。 威斯康星大學的朱瑞傑(jerry zhu) 在2023年進行了文獻調查 。 近年來,半監督學習不僅在亞馬遜上興起,因為它降低了重要基準上的錯誤率。

deepmind的塞巴斯蒂安·魯德(sebastian ruder) 在2023年4月寫了一篇部落格文章,介紹了一些半監督學習演算法,這些演算法建立了**標籤。 這些包括自我訓練,多檢視學習和自我組裝。

自我訓練使用模型自己對未標記資料的**來新增到標記資料集。 您實際上為**的置信度設定了乙個閾值,通常為0.5或更高,在該閾值之上您相信該**並將其新增到標記的資料集中。 您將繼續訓練模型,直到沒有更多的**可以確定為止。

這就引出了用於訓練的實際模型的問題。 與大多數機器學習一樣,您可能希望嘗試每種合理的候選模型,以期找到乙個執行良好的模型。

自我訓練取得了不同的成功。 最大的缺陷是該模型無法糾正其自身的錯誤:對乙個異常值的高置信度(但錯誤)的**可能會破壞整個模型。

多檢視訓練在資料的不同檢視上訓練不同的模型,這些檢視可能包括不同的特徵集,不同的模型體系結構或資料的不同子集。 有多種多檢視訓練演算法,但是最著名的一種是三訓練。 本質上,您建立了三個不同的模型; 每當兩個模型在資料點的標籤上達成一致時,該標籤就會新增到第三個模型中。 與自訓練一樣,當不再向任何模型新增標籤時,您將停止。

自組裝通常使用具有幾種不同配置的單個模型。 在梯形網路方法中,將乾淨示例的**用作隨機擾動示例的**標籤,目的是開發出對雜訊魯棒的功能。

jerry zhu的2023年教程還考慮了許多其他演算法。 這些包括生成模型(例如假設每個類具有高斯分布的模型),半監督支援向量機以及基於圖的演算法。

半監督學習正逐漸進入主流機器學習服務。 例如, amazon sagemaker ground truth使用amazon mechanical turk手動標記和確定影象集部分的邊界,並使用神經網路訓練來標記影象集的其餘部分。

類似的半監督學習方案可以用於其他型別的半監督學習,包括自然語言處理 ,分類和對幾種服務的回歸。 但是,大多數情況下,您必須為半監督演算法編寫自己的粘合**。

from:

半監督學習

一般認為,半監督學習的研究始於 b.shahshahani 和 d.landgrebe 的工作 shahshahanil94 但未標記示例的價值實際上早在上世紀 80 年代末就已經被一些研究者意識到了 lippman89 d.j.miller 和 h.s.uyar milleru97 認為,半監督學...

半監督學習

最近的一段時間一直在學習半監督學習演算法,目前,國內的南京大學周志華老師是這方面的泰斗,寫了很多這方面牛的文章,可以參考一下他的主頁 在國內的學術界周老師一直是我比較欽佩的人之一。下面貼出來的文章出自周老師之手,通俗易懂。受益匪淺。一般認為,半監督學習的研究始於 b.shahshahani 和 d....

半監督學習

目前,國內的南京大學周志華老師是這方面的泰斗,寫了很多這方面牛的文章,可以參考一下他的主頁 下面貼出來的文章出自周老師之手,通俗易懂。受益匪淺。一般認為,半監督學習的研究始於 b.shahshahani 和 d.landgrebe 的工作 shahshahanil94 但未標記示例的價值實際上早在上...