資料不足，如何進行遷移學習？

這並不是乙個特別愚蠢的問題。frame可以幫助zendesk，intercom和slack等規模性公司標記、評價和理解與客戶的對話。也就是說，「只要有足夠的對話，我們就可以手動評價」和「我們有足夠的資料從頭訓練乙個模型」，這二者之間有很大的差距。僅僅幾十個標籤和幾千條相關對話，這能夠做什麼？

遷移什麼？

深度神經網路是當前最新人工智慧背後的關鍵技術，比如理解影象、音訊或文字。深度神經網路的核心是它由層（「深度」）組成，每個層都將輸入轉換為更接近網路訓練答案的新的表示。

我們通常會抱怨，不了解神經網路的中間層到底發生了什麼……其實，它們通常被設計為更加清晰、可解釋的角色！比如：很多語言模型利用嵌入層將單個單詞或短語進行分類，將具有相似含義的單詞或短語放在一起。舉個例子來說，這將有助於翻譯ai在需要使用「傑出」（illustrious）這個詞的時候，會根據經驗選擇使用「偉大」（great）。

現在變得更有趣了：乙個「知道」「illustrious = great」的層不僅有利於翻譯，還可以學習情緒估計，將不同的觀點聚集起來。這就是遷移學習，也就是說模型在乙個任務中學習到的東西可以對另外乙個學習任務有幫助。事實上，這個特殊的例子特別受歡迎，以至於改進的通用語言模型已經成為乙個全新的領域！

未被標記的資料最少需要多少？

ulmfit為nlp提供了乙個有力的依據，使模型能夠更有效的利用較小的資料集。在這項研究中，我們專注於回答以下問題：

如果我們對標記示例的預算特別少，那麼，得需要收集多少未標記的資料才能有效的使用遷移學習？

為了解決這個問題，我們使用了大量固定的域資料池，並改變了標記示例的數量，來看看模型應該如何改進。將標記示例的數量保持不變，並改變未標記的其他域示例的數量。也就是說，我們的實驗包括：

1.語言建模（變數）

2.語言任務（不變數）

對於語言建模，我們改變了可用於語言任務的三種語言模型的域資料量：

•僅限ulm：這是使用wikitext103預訓練英語語言模型

•僅限域（domain）：僅在imdb資料上的基於域訓練的模型。

•ulm +域（domain）：ulmfit模型

訓練這些模型的計算量特別大，最大的域訓練可能需要幾天的時間才能完成。為了加快訓練速度和有效的執行網格搜尋，我們使用了floydhub。

結果

經過大約50個小時gpu處理，結果如下：

從實驗結果，我們可得知：

•使用33％的域資料，就可以獲得75％資料的umlfit效能。

•令人驚訝的是，ulm + 2,000域示例的語言任務**準確率約為85％。

資料不足，如何進行遷移學習？

資料不足，如何進行遷移學習？

資料不足，如何進行遷移學習？

資料不足，如何進行遷移學習？

相關推薦