主動學習 active learning

閱讀目錄

在機器學習(machine learning)領域，監督學習(supervised learning)、非監督學習(unsupervised learning)以及半監督學習(semi-supervised learning)是三類研究比較多，應用比較廣的學習技術，wiki上對這三種學習的簡單描述如下：

其實很多機器學習都是在解決類別歸屬的問題，即給定一些資料，判斷每條資料屬於哪些類，或者和其他哪些資料屬於同一類等等。這樣，如果我們上來就對這一堆資料進行某種劃分(聚類)，通過資料內在的一些屬性和聯絡，將資料自動整理為某幾類，這就屬於非監督學習。如果我們一開始就知道了這些資料報含的類別，並且有一部分資料(訓練資料)已經標上了類標，我們通過對這些已經標好類標的資料進行歸納總結，得出乙個「資料-->類別」的對映函式，來對剩餘的資料進行分類，這就屬於監督學習。而半監督學習指的是在訓練資料十分稀少的情況下，通過利用一些沒有類標的資料，提高學習準確率的方法。

在真實的資料分析場景中，我們可以獲取海量的資料，但是這些資料都是未標註資料，很多經典的分類演算法並不能直接使用。那肯定會有人說，資料是沒有標註的，那我們就標註資料嘍！這樣的想法很正常也很單純，但是資料標註的代價是很大的，及時我們只標註幾千或者幾萬訓練資料，標註資料的時間和金錢成本也是巨大的。

在介紹active learning的概念之前，首先先談一下樣本資訊的問題。

什麼是樣本資訊呢？簡單地來講，樣本資訊就是說在訓練資料集當中每個樣本帶給模型訓練的資訊是不同的，即每個樣本為模型訓練的貢獻有大有小，它們之間是有差異的。

因此，為了盡可能地減小訓練集及標註成本，在機器學習領域中，提出主動學習（active learning）方法，優化分類模型。

主動學習(active learning)，指的是這樣一種學習方法：

有的時候，有類標的資料比較稀少而沒有類標的資料是相當豐富的，但是對資料進行人工標註又非常昂貴，這時候，學習演算法可以主動地提出一些標註請求，將一些經過篩選的資料提交給專家進行標註。

這個篩選過程也就是主動學習主要研究的地方了。

主動學習演算法可以由以下五個元件進行建模:a=

(c,l

,s,q

,u)' data-evernote-id="270">a=(c,l,s,q,u)

a=(c,l,s,q,u)

其中 c

' data-evernote-id="313">c

c 為乙個或一組分類器；l

' data-evernote-id="328">l

l 為一組已標註的訓練樣本集；q

' data-evernote-id="342">q

q 為查詢函式,用於在未標註的樣本中查詢資訊量大的樣本；u

' data-evernote-id="356">u

u 為整個未標註樣本集；s

' data-evernote-id="371">s

s 為督導者，可以對未標註樣本進行標註。

主動學習演算法主要分為兩階段:

第一階段為初始化階段，隨機從未標註樣本中選取小部分，由督導者標註，作為訓練集建立初始分類器模型；

第二階段為迴圈查詢階段，s

' data-evernote-id="390">s

s 從未標註樣本集 u

' data-evernote-id="405">u

u 中,按照某種查詢標準 q

' data-evernote-id="420">q

q，選取一定的未標註樣本進行標註,並加到訓練樣本集 l

' data-evernote-id="434">l

l 中, 重新訓練分類器，直至達到訓練停止標準為止。

主動學習演算法是乙個迭代的過程,分類器使用迭代時反饋的樣本進行訓練,不斷提公升分類效率。

主動學習的例項：qq空間相簿中的人臉識別技術

下圖為action learning在相同的標註樣本數目下與監督學習演算法的比較：

從上圖也可以看出來，在相同數目的標註資料中，主動學習演算法比監督學習演算法的分類誤差要低。這裡注意橫軸是標註資料的數目，對於主動學習而言，相同的標註資料下，主動學習的樣本數》監督學習，這個對比主要是為了說明兩者對於訓練樣本的使用效率不同：主動學習訓練使用的樣本都是經過演算法篩選出來對於模型訓練有幫助的資料，所以效率高。但是如果是相同樣本的數量下去對比兩者的誤差，那肯定是監督學習佔優，這是毋庸置疑的。

很多人認為主動學習也屬於半監督學習的範疇了，但實際上是不一樣的，半監督學習和直推學習(transductive learning)以及主動學習，都屬於利用未標記資料的學習技術，但基本思想還是有區別的。

如上所述，主動學習的「主動」，指的是主動提出標註請求，也就是說，還是需要乙個外在的能夠對其請求進行標註的實體(通常就是相關領域人員)，即主動學習是互動進行的。

而半監督學習，特指的是學習演算法不需要人工的干預，基於自身對未標記資料加以利用。

[1] active learning wiki

[2] 2012，主動學習演算法綜述

主動學習 active learning

主動學習主動學習演算法綜述

主動學習介紹

主動學習教程

主動學習 active learning

主動學習 主動學習演算法綜述

主動學習介紹

主動學習教程

相關推薦

主動學習主動學習演算法綜述