把遷移學習用於文字分類(Andrew Ng)

2021-10-23 04:22:42 字數 1752 閱讀 5861

這是andrew等人2023年的**,並不新,我看他不是為了學習文字分類,而是為了看他是如何在這個特定任務上使用遷移學習的,因為最近在做遷移學習,但是應用方向不同,遷移學習也是乙個比較大的方向,包含多種實現方法,但是我覺得難點是在formulation上,所以以這篇**為範例,看他的理論推導和遷移學習的結合

測試文字向量和乙個引數向量的內積:

θ k1

,θk2

,⋯,θ

kn\theta_, \theta_, \cdots, \theta_

θk1​,θ

k2​,

⋯,θk

n​是對映得到的引數向量的所有分量,對於乙個固定的k,這組引數也是固定的

x 1,

x2,⋯

,xnx_1, x_2, \cdots, x_n

x1​,x2

​,⋯,

xn​是測試文字向量

隨k從1到k,使得上面的內積取得最大值的k就是最終的**類別。

框架很明了,但是要怎麼把訓練集的資料對映到這樣一組合適的引數上呢?我們需要根據這組引數再做相關時,就能得到正確結果,所以倒著推,主要任務和終極目標是要想辦法找到乙個好的引數函式g,這就是文字分類領域多年來的研究主題,也是最大的挑戰。

svm,邏輯回歸等判別方法都是使用數值優化(一般是梯度下降)去選擇最優引數。而本文提出的方法不使用數值優化,而是直接由閉式函式得到解析解。本文聚焦於那些引數是訓練資料training set statistics通過某種預指定的函式pre-specified functions得來的文字分類方法,即本文的這種遷移並不適用於使用數值優化的一些文字分類模型。

比如說訓練集引數是

\_\}

, 那麼引數θki

:=g(

uki)

\theta_:=g(\boldsymbol_)

θki​:=

g(uk

i​),不需要執行任何優化,只需要把資料帶入函式g,求出解就行。

那麼哪些文字分類方法是不需要數值優化,且有乙個指定的引數函式的呢?

很多常見文字分類方法都是這種型別。比如:樸素貝葉斯的多項式和多元泊努力分布the multinomial and multivariate

bernoulli event models for ***** bayes,基於向量空間的tfidf分類器以及他的概率變體prtfidf, the vector space-based tfidf classifier and its probabilistic variant, prtfidf 。

過去三十年(相對於2005),資訊檢索領域的歷史一直是手動嘗試tfidf的變體,即調整引數函式g。(實際中,文字分類的研究者經常是通過試錯trial-and-error,即現實應用的經驗性測試empirical testing來進行開發演算法的。)

選擇乙個文字分類器就相當於選定了引數函式。

本文要利用大量相關領域的分類任務的資料,去自動學習乙個引數函式g(為文字分類器自動找到乙個好的引數函式,而不是花幾個小時去手動處理全域性收斂的凸優化問題),他們希望通過這樣,把引數函式g可以用到別的分類問題,從而實現遷移,所以是遷移學習的乙個例項instance。

不打算繼續看了,明白了他們遷移的原理,所以遷移學習是乙個頂層概念,抽象的,就像c++的純虛函式一樣,可以以各種方式去實現它,只要你做到了他的理念就行:把已有知識遷移到新系統,且新任務和舊任務存在某種聯絡。

深度學習和文字分類

參考部落格 fasttext 模型輸入乙個詞的序列 一段文字或者一句話 輸出這個詞序列屬於不同類別的概率。序列中的詞和片語組成特徵向量,特徵向量通過線性變換對映到中間層,中間層再對映到標籤。fasttext 在 標籤時使用了非線性啟用函式,但在中間層不使用非線性啟用函式。fasttext 模型架構和...

深度學習和文字分類

傳統的文字分類模型 深度學習文字分類模型 fasttext fasttext 模型輸入乙個詞的序列 一段文字或者一句話 輸出這個詞序列屬於不同類別的概率。序列中的詞和片語組成特徵向量,特徵向量通過線性變換對映到中間層,中間層再對映到標籤。fasttext 在 標籤時使用了非線性啟用函式,但在中間層不...

文字分類深度學習實踐 學習記錄

word2vec的主要思路 通過單詞和上下文彼此 對應的兩個演算法分別為 也就是說模型的輸出概率代表著到我們詞典中每個詞有多大可能性跟input word同時出現。例如 如果我們向神經網路模型中輸入乙個單詞 soviet 那麼最終模型的輸出概率中,像 union russia 這種相關詞的概率將遠高...