當前最好的非深度遷移學習方法 流形空間下的分布對齊

2021-09-20 05:59:10 字數 4367 閱讀 6295

本文即將發表在國際頂級會議 acm ********** conference 2018 上,被評為 oral,而且是 top 10 *****。**提出了乙個叫 meda (manifold embedded distribution alignment) 的方法進行遷移學習,取得了對比當前眾多最新的深度和非深度方法的最好結果。

我們系統性地解決了如何定量估計邊緣分布和條件分布在遷移學習中的重要性的問題,這也是當前所有文章沒有考慮過的。我們的方法是首次完成這個估計。

■ ** | visual domain adaptation with manifold embedded distribution alignment

■ 鏈結 |

■ 原始碼 |

主要思路

我們提出通過自適應的分布適配的方式,來減小流形空間中的特徵之間的距離,最終構建乙個分類器 f。現有的工作通常都只是在原始的資料空間中學習此分類器 f,然而由於原始空間下的特徵往往存在扭曲,因而會使得學習結果出現欠適配。根據流形假設,嵌入在流形空間中的點和它們的鄰居通常都有著相似的性質。因此,我們提出流形特徵變換,以此來減小域之間的資料漂移;然後進行自適應的分布適配,最後學習分類器 f。

流形特徵變換之後,我們在結構風險最小化的框架下,通過自適應的分布適配來學習分類器 f。考慮到 ds 和 dt 之間不同的資料分布,即和,我們需要適配此二者的分布,以此來確保在 ds 上學習到的知識能夠成功地被遷移到 dt 上。特別地,我們提出動態衡量邊緣分布和條件分布重要性,以此來進行自適應的分布適配。最後,分類器 f 可以被很好地學習到。

可以用下面的圖進行表示。

流形特徵變換

由於在流形空間中的特徵通常都有著很好的幾何性質,可以避免特徵扭曲,因此我們首先將原始空間下的特徵變換到流形空間中。在眾多已知的流形中,grassmann 流形 g (d) 可以通過將原始的 d 維子空間(特徵向量)看作它基礎的元素,從而可以幫助學習分類器。

在 grassmann 流形中,特徵變換和分布適配通常都有著有效的數值形式,因此在遷移學習問題中可以被很高效地表示和求解。因此,利用grassmann流形空間中來進行分類器 f 的學習是可行的。

現存有很多方法可以將原始特徵變換到流形空間,在現存的這些方法中,我們選擇測地線流式核方法(geodesic flow kernel, gfk)來整合進meda 方法中,完成流形特徵變換,因為 gfk 有著很好的計算高效性。gfk 的細節可以在它的原始文獻中找到,我們下面介紹它的基本思想。

在學習流形特徵變換時,meda 試圖用 d 維子空間來對資料領域進行建模,然後將這些子空間嵌入到流形 g 中。用 ss 和 st 分別表示源域和目標域經過主成分分析(pca)之後的子空間,則 g 可以視為所有的 d 維子空間的集合。每乙個 d 維的原始子空間都可以被看作 g 上的乙個點。因此,在兩點之間的測地線 可以在兩個子空間之間構成一條路徑。

如果我們令 ss=φ(0) ,st=φ(1) ,則尋找一條從 φ(0) 到 φ(1) 的測地線就等同於將原始的特徵變換到乙個無窮維度的空間中,最終減小域之間的漂移現象。這種方法可以被看作是一種從 φ(0) 到 φ(1) 的增量式"行走"方法。特別地,流形空間中的特徵可以被表示為 z=φ(t)tx 。從文獻中可以知道,變換後的特徵 zi 和 zj 的內積定義了乙個半正定(positive semidefinite)的測地線流式核(gfk)。

因此,通過,在原始空間中的特徵就可以被變換到 grassmann 流形空間中。核 g 可以通過矩陣奇異值分解來有效地計算。然後,我們將會進行自適應分布適配,最終在 grassmann 流形空間中學習乙個域不變的分類器 f,以此來極大地減小域之間的漂移。

動態分布對齊

現存的分布適配方法通常假定邊緣分布 (p) 和條件分布 (q) 是同等重要的。然而,這種假設並不成立。例如,當源域和目標域資料本身存在較大的差異性時,邊緣分布適配更重要;當源域和目標域資料集有較高的相似性時,條件概率分布適配更加重要。

因此,我們需要能夠動態衡量 p 和 q 的不同作用,而不是簡單地對它們以同樣的權重相加。為了達到這個目的,我們引入乙個自適應因子來自適應地條件這兩種分布的重要性。用形式化的語言來講,自適應的分布適配可以被表示為:

其中,μ∈[0,1] 表示自適應因子,c∈ 是類別指示。df(ps,pt) 表示邊緣分布適配,表示對類別 c 的條件分布適配。

當 μ→0,這表示源域和目標域資料本身存在較大的差異性,因此,邊緣分布適配更重要;當 μ→1 時,這表示源域和目標域資料集有較高的相似性,因此,條件概率分布適配更加重要。當 μ=0.5 時,表示將邊緣分布和條件分布適配同等看待,這也是目前流行的方法的核心工作。因此,這些現有方法可能被看作是 meda 方法的特例。通過學習最優的自適應因子,meda 可以被應用於不同的遷移學習任務中。

另外,由於目標域資料 dt 沒有標籤,直接評價目標域的條件概率分布 qt=qt(yt|zt) 是不可行的。所以我們用類條件概率 qt(zt|yt) 秋近似 qt,因為當樣本個數足夠大時,qt(zt|yt) 和 qt 有著很好的相似性。

為了近似 qt(zt|yt),我們在源域 ds 上訓練乙個弱分類器,然後用此弱分類器到 dt 上進行**,得到目標域的偽標記。這些偽標記的置信度可能不高,因此我們迭代式地修正**結果。注意到,我們僅僅在第一輪的迭代中使用了分類器。在第一輪之後,meda 使用它先前的結果,自動地修正目標域 dt 的標籤。

我們用最大均值差異(maximum mean discrepancy, mmd)來計算兩個概率分布之間的差異性。mmd 是一種非引數化的分布估計方法,已經被廣泛地應用於多種遷移學習方法。

兩個概率分布 p 和 q 之間的 mmd 距離被定義為,其中 hk 是由特徵對映 ϕ(⋅) 所張成的再生核希爾伯特空間(reproducing kernel hilbert space, rkhs), e[⋅] 表示嵌入樣本的均值。

為了使得 mmd 與分類器 f 保持一致性,我們採用對映的 mmd 距離(projected mmd),對我們問題中的邊緣分布差異按如下方式計算:

同理,條件分布差異可以被表示為:

然後,自適應分布適配可以被表示為:

值得注意的是,從技術角度上說,自適應因子 μ 並不是乙個自由引數,它必須根據資料的分布來進行設定。我們在這裡提供乙個簡單的思路和近似地估計 μ。

我們採用 a-distance 來估計不同分布之間的距離。a-distance 被定義為建立乙個線性分類器來區分兩個資料領域的 hinge 損失(也就是進行二類分類的 hinge 損失)。

對於邊緣分布差異,我們直接計算 ds,dt 之間的 a-distance,將得到的結果記為 am;對於條件分布差異,我們首先對目標域聚類成 c 個類,然後,對於兩個域中來自同乙個類別的資料,我們計算它們的 a-distance。我們記 ac 為所有類別之間 a-distance的 平均值。然後,自適應因子 μ 可以被估計為。

這是首次對兩種分布的精確估計!

學習 f 的過程不再贅述。看 ***** 即可。

實驗精度

我們的方法在 office31、office+caltech10、mnist、usps、imagenet、voc2007 上都取得了當前最好的效果。我們的對比方法包括了傳統方法,一直到 cvpr 2017、pami 2017、aaai 2018; 深度方法包括 ddc、dan、revgrad 等流行方法。具體實驗步驟可以看文章。下面是實驗結果:

對μ的估計

我們的方法是首次成功估計 μ 的!為了對比估計的精度,我們對 μ 進行了從 0 到 1,間隔 0.1 的遍歷,以此為近似的最優的 μ。下面是我們的估計結果和遍歷結果對比。可以清楚地看到,我們估計的 μ 整體上和遍歷結果並沒有太大差異,並且還可能在精度上超過它!因為遍歷的結果只是 0.1 為區間,我們可以精確地進行計算。

這個方法具有劃時代意義,因為我們現在可以精確地知道哪部分分布更重要!

一種深度學習方法 遷移學習

接下來我會介紹關於遷移學習的以下內容。它是什麼?它是如何工作的?為什麼使用它?什麼時候使用?轉移學習的方法 訓練模型 使用預先訓練的模型 和特徵提取 遷移學習 遇到乙個新問題,不是從頭訓練乙個網路模型,而是在現有的預訓練模型上,再次訓練或者直接使用。因為他可以用較少的資料來訓練深度神經網路,如果你資...

模仿是一種最好的學習方法

測試空間 旗下大頭針 出品 學習的過程就是,接受別人思維的乙個過程。對於乙個從來都沒有接觸過c語言的學生,如果想學好它,其實學習的不是知識本身,需要學習的c語言 這種面向過程的高階語言的思維方式。通過近一段的時間的授課,更加體會深刻的體會到老師這個職業不但要教授給學生知識,教授的學習知識的方法,更重...

讀書筆記 學習方法 《深度學習的藝術》 採銅

在知乎上敬仰採銅老師很久,當得知他寫的一本關於學習方法的書 深度學習的藝術 上架之後,在亞馬遜中國 上購買了這本我人生中第一本付費購買的電子書。該讀書筆記並非完全按照原書敘述順序摘抄,而是經過本人的修改和整理而來。讀書筆記正文 所謂深度學習,顧名思義,就是學東西不只看到它浮在表面的東西,而是往深入去...