第九章元學習新進展

元學習中，通過相關任務的分布來訓練模型，這樣它就可以很容易的適應新任務，且只需幾個樣本。前面介紹的maml是如何通過計算元梯度和執行元優化來找到模型的最優初始引數，但是會有乙個問題：模型可能會在某些任務上有偏差，特別是在元訓練階段抽樣的任務上。因此，模型會在這些任務上過度執行，就會阻礙尋找更好的更新規則。為了改善這種情況，我們需要模型在某些任務上無偏或不過度執行，也就是需要使模型與任務無關，來防止任務偏差並獲得更好的泛化。

taml有兩種：熵最大化，不平等最小化（基尼係數、泰爾指數、演算法的方差）。

如果讓機械人通過觀察人類的行為，學習複雜的目標而無須設計複雜的目標和獎懲函式，這種從人類行為中學習，被稱為模仿學習。機械人需要大量的時間和演示來學習目標並識別正確的策略。因此我們將用先前的經驗作為演示（訓練資料）來增強機械人，這樣就不必完全從頭開始每項技能。同樣可以加入元學習，重用演示資料並從幾個相關的任務中學習，從而快速學習新任務，從而形成元模仿學習。使用mil，我們可以利用來自各種其他任務的演示資料，以便通過單個演示快速學習新任務。因此，我們僅通過單個任務演示就可以找到新任務的正確策略。對於mil，可以使用任何見過的元學習演算法，例如maml，它與任何可以通過梯度下降訓練的演算法相容，我們將使用策略梯度作為尋找正確策略的演算法，在策略梯度中，可以直接用某個引數對引數化的策略進行優化。

目標是學習一種策略，該策略可以從新任務的單個演示快速適應該任務。由此可以消除對每個任務的大量演示資料的依賴。

使用cactus生成任務：假設有包含未標記示例的資料集，現在需要為資料集建立標籤，首先使用一些嵌入函式為資料集中的每個資料點提取特徵，生成標籤一種簡單地方法是使用一些隨機超平面將資料集d劃分為p部分，然後可以將資料集的每個劃分子集視為單獨的類。

由於使用的是隨機超平面，類可能會包含完全不同的特徵向量，相關的特徵向量也可能儲存在不同的類中。因此可以使用聚類演算法，而不是隨機超平面來劃分資料集，使用k-means聚類多次迭代，得到k個簇，可以將每個簇作為單獨的類來處理。

然後該生成任務，假設由於聚類，有5個簇，從這5個簇中抽取n個簇作為樣本，然後從n個簇中的每個簇不放回抽樣r個資料點；之後抽取乙個包含n個特定於任務的one-hot標籤排列，用於為n個抽取的簇分配標籤。

如何在概念空間中使用深度元學習來學習？抽取一批相關任務，在每個任務中抽取k個資料點，並對元學習器進行訓練。可以將深度學習和元學習結合起來，而不是僅僅使用普通元學習技術進行訓練。因此，當抽取一批相關任務，並在每個任務中抽取k個資料點時，可以使用深度神經網路學習每個任務的k個資料點的表示，我們會對這些表示進行元學習。

概念空間元學習包括概念生成器、概念鑑別器、元學習器。

我們將元學習與深度學習相結合，改進了普通的元學習。概念生成器會隨著新的輸入資料而進化，因此可以將此框架視為終生學習系統。

如上圖所示：抽取一組任務，並將它們輸入概念生成器。概念生成器學習概念，然後將這些概念提供給元學習器。元學習器學習這些概念並將損失傳送回概念生成器。同時，我們還向概念生成器提供一些外部資料集。概念生成器學習這些輸入的概念，並將其傳送給概念鑑別器。概念鑑別器**這些概念的標籤計算損失，並將損失傳送回概念生成器。由此增強了概念生成器泛化概念的能力。

第九章元學習新進展

第九章（筆記）

第九章作業

第九章引用

第九章 元學習新進展

第九章（筆記）

第九章作業

第九章 引用

相關推薦

第九章元學習新進展

第九章引用