第九章 元學習新進展

2021-10-09 08:47:41 字數 1640 閱讀 6277

元學習中,通過相關任務的分布來訓練模型,這樣它就可以很容易的適應新任務,且只需幾個樣本。前面介紹的maml是如何通過計算元梯度和執行元優化來找到模型的最優初始引數,但是會有乙個問題:模型可能會在某些任務上有偏差,特別是在元訓練階段抽樣的任務上。因此,模型會在這些任務上過度執行,就會阻礙尋找更好的更新規則。為了改善這種情況,我們需要模型在某些任務上無偏或不過度執行,也就是需要使模型與任務無關,來防止任務偏差並獲得更好的泛化。

taml有兩種:熵最大化,不平等最小化(基尼係數、泰爾指數、演算法的方差)。

如果讓機械人通過觀察人類的行為,學習複雜的目標而無須設計複雜的目標和獎懲函式,這種從人類行為中學習,被稱為模仿學習。機械人需要大量的時間和演示來學習目標並識別正確的策略。因此我們將用先前的經驗作為演示(訓練資料)來增強機械人,這樣就不必完全從頭開始每項技能。同樣可以加入元學習,重用演示資料並從幾個相關的任務中學習,從而快速學習新任務,從而形成元模仿學習。使用mil,我們可以利用來自各種其他任務的演示資料,以便通過單個演示快速學習新任務。因此,我們僅通過單個任務演示就可以找到新任務的正確策略。對於mil,可以使用任何見過的元學習演算法,例如maml,它與任何可以通過梯度下降訓練的演算法相容,我們將使用策略梯度作為尋找正確策略的演算法,在策略梯度中,可以直接用某個引數對引數化的策略進行優化。

目標是學習一種策略,該策略可以從新任務的單個演示快速適應該任務。由此可以消除對每個任務的大量演示資料的依賴。

使用cactus生成任務:假設有包含未標記示例的資料集,現在需要為資料集建立標籤,首先使用一些嵌入函式為資料集中的每個資料點提取特徵,生成標籤一種簡單地方法是使用一些隨機超平面將資料集d劃分為p部分,然後可以將資料集的每個劃分子集視為單獨的類。

由於使用的是隨機超平面,類可能會包含完全不同的特徵向量,相關的特徵向量也可能儲存在不同的類中。因此可以使用聚類演算法,而不是隨機超平面來劃分資料集,使用k-means聚類多次迭代,得到k個簇,可以將每個簇作為單獨的類來處理。

然後該生成任務,假設由於聚類,有5個簇,從這5個簇中抽取n個簇作為樣本,然後從n個簇中的每個簇不放回抽樣r個資料點;之後抽取乙個包含n個特定於任務的one-hot標籤排列,用於為n個抽取的簇分配標籤。

如何在概念空間中使用深度元學習來學習?抽取一批相關任務,在每個任務中抽取k個資料點,並對元學習器進行訓練。可以將深度學習和元學習結合起來,而不是僅僅使用普通元學習技術進行訓練。因此,當抽取一批相關任務,並在每個任務中抽取k個資料點時,可以使用深度神經網路學習每個任務的k個資料點的表示,我們會對這些表示進行元學習。

概念空間元學習包括概念生成器、概念鑑別器、元學習器。

我們將元學習與深度學習相結合,改進了普通的元學習。概念生成器會隨著新的輸入資料而進化,因此可以將此框架視為終生學習系統。

如上圖所示:抽取一組任務,並將它們輸入概念生成器。概念生成器學習概念,然後將這些概念提供給元學習器。元學習器學習這些概念並將損失傳送回概念生成器。同時,我們還向概念生成器提供一些外部資料集。概念生成器學習這些輸入的概念,並將其傳送給概念鑑別器。概念鑑別器**這些概念的標籤計算損失,並將損失傳送回概念生成器。由此增強了概念生成器泛化概念的能力。

第九章(筆記)

轉移指令是可以修改ip,或同時修改cs和ip的指令 offset 是用於提取標號偏移位址的操作符 jmp在第2章裡說到時用於修改ip或同時修改cs和ip的轉移指令,這章裡單獨的jmp指令是乙個無條件的轉移指令 jmp short 標號 是實現段內短轉移 jmp near ptr 標號 是實現段內近轉...

第九章作業

班級 0401304 學號 2013211526 姓名 鄧小俊 2.身份驗證 依據使用者所提供的身份資訊,來進行登入驗證,可以再細分為使用者是否可以登入sql sever 使用者是否可以登入到指定的目標資料庫等。授權 已通過身份驗證的使用者,檢查其所被賦予的許可權,是否可以訪問或者執行目標的物件 3...

第九章 引用

引用擁有指標的所有功能,只是語法更加的簡單 1 引用就是別名,變數的另外乙個名字,變數和別名它們的位址是一樣的,操作別名就是操作變數 2 引用就是別名常量,一旦引用被初始化就不能再改變了 可以理解為指標常量,指向的值不能改變,能改變的只是它的該位址處的值 3 引用物件huamn mike human...