新聞文字分類 Task6 基於深度學習的文字分類3

學習目標

將有限的注意力集中在重要的資訊上，從而節省資源，快速獲取最有效的資訊。這就是簡單的attention is all you need。

個人理解：

有個圖書館（source），裡面有很多的書籍，為了方便管理我們給他們做了標籤，形成（標籤，書籍）–>（k，v）這種方式，當我們需要了解某個資訊，比如北京大學（query），我們需要從書籍中選取相關性比較高的來閱讀理解，如北京大學的建校歷史等，想關性比較低的可以稍稍過一遍，比如中國名校。這樣權重高的資訊得到較高的關注度。

階段1：query和key進行相似度計算

階段2：將權值歸一化，得到可用的權重

階段3：將權重和value進行加權求和

接下來是相似度計算的幾個計算方式解釋如下圖：

這就是注意力機制的個人理解，對資訊加以提取綱要，下一步的transformer的就是融匯貫通。

transformer中的attention是self-attention，self-attention跟attention的主要區別是三個引數q、k、v都是通過輸入語句，就是自己來轉換得到的。

bert是乙個預訓練語言模型，bert是乙個考慮上下文（雙向）的模型，為了適配多工下的遷移學習，bert設計了更通用的輸入層和輸出層。

bert的輸入可以是單一的乙個句子或者是句子對，實際的輸入值是segment embedding與position embedding相加。

bert的輸入詞向量是三個向量之和：

token embedding：wordpiece tokenization subword詞向量。

segment embedding：表明這個詞屬於哪個句子（nsp需要兩個句子）。

position embedding：學習出來的embedding向量。這與transformer不同，transformer中是預先設定好的值。

bert的三個階段：

Task4基於深度學習的文字分類

fasttext是一種典型dl詞向量的表示方法，它通過embedding層將單詞對映到稠密空間，然後將句子中所有的單詞在embedding空間中進行平均，進而完成分類操作它是乙個三層神經網路輸入層隱含層輸出層它用單詞的embedding疊加獲得的文件向量，將相似的句子分為一類它學到的em...

NLP入門新聞文字分類Task5

textcnn textrnn 上乙個task4利用了fasttext，但不是最優的思路方法，因此本章將繼續學習基於深度學習的文字分類。基於詞的上下文環境進行對於每一條輸入文字，選取一定大小的視窗的上下文和乙個中心詞，並基於這個中心詞去視窗內其他詞出現的概率。通過單詞和上下文彼此基礎 yoon...

新聞文字分類問題

新聞文字分類問題是典型的字元識別問題。賽題本質是乙個文字分類問題，需要根據每句的字元進行分類。但賽題給出的資料是匿名化的，不能直接使用中文分詞等操作因此本次賽題的難點是需要對匿名字元進行建模，進而完成文字分類的過程。由於文字資料是一種典型的非結構化資料，因此可能涉及到特徵提取和分類模型兩個部分。思...

新聞文字分類 Task6 基於深度學習的文字分類3

Task4基於深度學習的文字分類

NLP入門 新聞文字分類Task5

新聞文字分類問題

相關推薦

NLP入門新聞文字分類Task5