遷移學習( Transfer Learning )

2022-08-20 03:06:10 字數 2504 閱讀 9998

在傳統的機器學習的框架下,學習的任務就是在給定充分訓練資料的基礎上來學習乙個分類模型;然後利用這個學習到的模型來對測試文件進行分類與**。然而,我們看到機器學習演算法在當前的web挖掘研究中存在著乙個關鍵的問題:一些新出現的領域中的大量訓練資料非常難得到。我們看到web應用領域的發展非常快速。大量新的領域不斷湧現,從傳統的新聞,到網頁,到,再到部落格、播客等等。傳統的機器學習需要對每個領域都標定大量訓練資料,這將會耗費大量的人力與物力。而沒有大量的標註資料,會使得很多與學習相關研究與應用無法開展。其次,傳統的機器學習假設訓練資料與測試資料服從相同的資料分布。然而,在許多情況下,這種同分布假設並不滿足。通常可能發生的情況如訓練資料過期。這往往需要我們去重新標註大量的訓練資料以滿足我們訓練的需要,但標註新資料是非常昂貴的,需要大量的人力與物力。從另外乙個角度上看,如果我們有了大量的、在不同分布下的訓練資料,完全丟棄這些資料也是非常浪費的。如何合理的利用這些資料就是遷移學習主要解決的問題。遷移學習可以從現有的資料中遷移知識,用來幫助將來的學習。遷移學習(transfer learning)的目標是將從乙個環境中學到的知識用來幫助新環境中的學習任務。因此,遷移學習不會像傳統機器學習那樣作同分布假設。

我們在遷移學習方面的工作目前可以分為以下三個部分:同構空間下基於例項的遷移學習,同構空間下基於特徵的遷移學習與異構空間下的遷移學習。我們的研究指出,基於例項的遷移學習有更強的知識遷移能力,基於特徵的遷移學習具有更廣泛的知識遷移能力,而異構空間的遷移具有廣泛的學習與擴充套件能力。這幾種方法各有千秋。

1.同構空間下基於例項的遷移學習

基於例項的遷移學習的基本思想是,儘管輔助訓練資料和源訓練資料或多或少會有些不同,但是輔助訓練資料中應該還是會存在一部分比較適合用來訓練乙個有效的分類模型,並且適應測試資料。於是,我們的目標就是從輔助訓練資料中找出那些適合測試資料的例項,並將這些例項遷移到源訓練資料的學習中去。在基於例項的遷移學習方面,我們推廣了傳統的adaboost演算法,提出一種具有遷移能力的boosting演算法:tradaboosting [9],使之具有遷移學習的能力,從而能夠最大限度的利用輔助訓練資料來幫助目標的分類。我們的關鍵想法是,利用boosting的技術來過濾掉輔助資料中那些與源訓練資料最不像的資料。

其中,boosting的作用是建立一種自動調整權重的機制,於是重要的輔助訓練資料的權重將會增加,不重要的輔助訓練資料的權重將會減小。調整權重之後,這些帶權重的輔助訓練資料將會作為額外的訓練資料,與源訓練資料一起從來提高分類模型的可靠度。

基於例項的遷移學習只能發生在源資料與輔助資料非常相近的情況下。但是,當源資料和輔助資料差別比較大的時候,基於例項的遷移學習演算法往往很難找到可以遷移的知識。但是我們發現,即便有時源資料與目標資料在例項層面上並沒有共享一些公共的知識,它們可能會在特徵層面上有一些交集。因此我們研究了基於特徵的遷移學習,它討論的是如何利用特徵層面上公共的知識進行學習的問題。

2.同構空間下基於特徵的遷移學習

在基於特徵的遷移學習研究方面,我們提出了多種學習的演算法,如cocc演算法[7],tplsa演算法[4],譜分析演算法[2]與自學習演算法[3]等。其中利用互聚類演算法產生乙個公共的特徵表示,從而幫助學習演算法。我們的基本思想是使用互聚類演算法同時對源資料與輔助資料進行聚類,得到乙個共同的特徵表示,這個新的特徵表示優於只基於源資料的特徵表示。通過把源資料表示在這個新的空間裡,以實現遷移學習。應用這個思想,我們提出了基於特徵的有監督遷移學習與基於特徵的無監督遷移學習。

2.1 基於特徵的有監督遷移學習

我們在基於特徵的有監督遷移學習方面的工作是基於互聚類的跨領域分類[7],這個工作考慮的問題是:當給定乙個新的、不同的領域,標註資料及其稀少時,如何利用原有領域中含有的大量標註資料進行遷移學習的問題。在基於互聚類的跨領域分類這個工作中,我們為跨領域分類問題定義了乙個統一的資訊理論形式化公式,其中基於互聚類的分類問題的轉化成對目標函式的最優化問題。在我們提出的模型中,目標函式被定義為源資料例項,公共特徵空間與輔助資料例項間互資訊的損失。

2.2 基於特徵的無監督遷移學習:自學習聚類

我們提出的自學習聚類演算法[3]屬於基於特徵的無監督遷移學習方面的工作。這裡我們考慮的問題是:現實中可能有標記的輔助資料都難以得到,在這種情況下如何利用大量無標記資料輔助資料進行遷移學習的問題。自學習聚類的基本思想是通過同時對源資料與輔助資料進行聚類得到乙個共同的特徵表示,而這個新的特徵表示由於基於大量的輔助資料,所以會優於僅基於源資料而產生的特徵表示,從而對聚類產生幫助。

上面提出的兩種學習策略(基於特徵的有監督遷移學習與無監督遷移學習)解決的都是源資料與輔助資料在同一特徵空間內的基於特徵的遷移學習問題。當源資料與輔助資料所在的特徵空間中不同時,我們還研究了跨特徵空間的基於特徵的遷移學習,它也屬於基於特徵的遷移學習的一種。

3.  異構空間下的遷移學習:翻譯學習

我們提出的翻譯學習[1][5]致力於解決源資料與測試資料分別屬於兩個不同的特徵空間下的情況。在[1]中,我們使用大量容易得到的標註過文字資料去幫助僅有少量標註的影象分類的問題,如上圖所示。我們的方法基於使用那些用有兩個視角的資料來構建溝通兩個特徵空間的橋梁。雖然這些多視角資料可能不一定能夠用來做分類用的訓練資料,但是,它們可以用來構建翻譯器。通過這個翻譯器,我們把近鄰演算法和特徵翻譯結合在一起,將輔助資料翻譯到源資料特徵空間裡去,用乙個統一的語言模型進行學習與分類。

遷移學習 自我學習

最近在看ng的深度學習教程,看到self taught learning的時候,對一些概念感到很陌生。作為還清技術債的乙個環節,用半個下午的時間簡單搜了下幾個名詞,以後如果會用到的話再深入去看。監督學習在前一篇部落格中討論過了,這裡主要介紹下遷移學習 自我學習。因為監督學習需要大量訓練樣本為前提,同...

深度學習 遷移學習

遷移學習 把公共的資料集的知識遷移到自己的問題上,即將已經訓練好的模型的一部分知識 網路結構 直接應用到另乙個類似模型中去 小資料集 利用遷移學習,應用其他研究者建立的模型和引數,用少量的資料僅訓練最後自定義的softmax網路。從而能夠在小資料集上達到很好的效果。例如 imagenet 資料集,它...

遷移學習 domain adaption

一 概念 1 learning from scratch 即學乙個cnn網路with random initialization 2 在新的學習任務中,可以利用現有訓練好的imagenet網路提取特徵,去掉最後乙個分類的全連線層,在classifier層之前提取4096維的特徵,這些特徵稱為cnn ...