半監督學習解釋

傑夫·貝佐斯（jeff bezos）在2023年的亞馬遜股東信中寫了有關亞馬遜語音驅動智慧型助手alexa的一些有趣資訊：

在美國，英國和德國，通過增強alexa的機器學習元件和使用半監督學習技術，我們在過去12個月中已將alexa的口語理解提高了25％以上。（這些半監督學習技術將實現相同精度提高所需的標記資料量減少了40倍！）

鑑於這些結果，嘗試對我們自己的分類問題進行半監督學習可能會很有趣。但是什麼是半監督學習？它的優缺點是什麼？我們如何使用它？

[理解機器學習的意義：人工智慧，機器學習和深度學習：您需要知道的一切。|機器學習的解釋。|機器學習演算法進行了解釋。|深度學習解釋了。|通過infoworld大資料和分析報告時事通訊深入了解分析和大資料。]

就像您可能從名稱中期望的那樣，半監督學習介於監督學習和非監督學習之間。有監督的學習從帶有正確答案（目標值）的訓練資料開始。學習過程結束後，您將獲得乙個具有一組權重調整模型的模型，該模型可以**尚未標記的相似資料的答案。

半監督學習使用標記和未標記的資料來擬合模型。在某些情況下，例如alexa，新增未標記的資料實際上可以提高模型的準確性。在其他情況下，未標記的資料會使模型更糟。我將在下面討論，不同的演算法對不同的資料特徵具有脆弱性。

通常，為資料加標籤會花費金錢並花費時間。這並不總是乙個問題，因為某些資料集已經具有標籤。但是，如果您有很多資料，但其中只有一部分被標記，那麼半監督學習是一種很好的嘗試方法。

半監督學習至少可以追溯到15年，甚至可能更長。威斯康星大學的朱瑞傑（jerry zhu）在2023年進行了文獻調查。近年來，半監督學習不僅在亞馬遜上興起，因為它降低了重要基準上的錯誤率。

deepmind的塞巴斯蒂安·魯德（sebastian ruder）在2023年4月寫了一篇部落格文章，介紹了一些半監督學習演算法，這些演算法建立了**標籤。這些包括自我訓練，多檢視學習和自我組裝。

自我訓練使用模型自己對未標記資料的**來新增到標記資料集。您實際上為**的置信度設定了乙個閾值，通常為0.5或更高，在該閾值之上您相信該**並將其新增到標記的資料集中。您將繼續訓練模型，直到沒有更多的**可以確定為止。

這就引出了用於訓練的實際模型的問題。與大多數機器學習一樣，您可能希望嘗試每種合理的候選模型，以期找到乙個執行良好的模型。

自我訓練取得了不同的成功。最大的缺陷是該模型無法糾正其自身的錯誤：對乙個異常值的高置信度（但錯誤）的**可能會破壞整個模型。

多檢視訓練在資料的不同檢視上訓練不同的模型，這些檢視可能包括不同的特徵集，不同的模型體系結構或資料的不同子集。有多種多檢視訓練演算法，但是最著名的一種是三訓練。本質上，您建立了三個不同的模型；每當兩個模型在資料點的標籤上達成一致時，該標籤就會新增到第三個模型中。與自訓練一樣，當不再向任何模型新增標籤時，您將停止。

自組裝通常使用具有幾種不同配置的單個模型。在梯形網路方法中，將乾淨示例的**用作隨機擾動示例的**標籤，目的是開發出對雜訊魯棒的功能。

jerry zhu的2023年教程還考慮了許多其他演算法。這些包括生成模型（例如假設每個類具有高斯分布的模型），半監督支援向量機以及基於圖的演算法。

半監督學習正逐漸進入主流機器學習服務。例如， amazon sagemaker ground truth使用amazon mechanical turk手動標記和確定影象集部分的邊界，並使用神經網路訓練來標記影象集的其餘部分。

類似的半監督學習方案可以用於其他型別的半監督學習，包括自然語言處理，分類和對幾種服務的回歸。但是，大多數情況下，您必須為半監督演算法編寫自己的粘合**。

from:

半監督學習解釋

半監督學習

半監督學習

半監督學習

相關推薦