基於字元「從0開始學習」的文字分類

2021-09-29 21:40:20 字數 2518 閱讀 6510

2.二 **精讀

3.三 **實現

4.四 問題思索

1.文字分類簡介

2.文字分類的相關方法

1.文字分類簡介文字分類:文字分類就是根據將文字內容將其分到合適的類別

意義:文字分類是自然語言的基礎問題,可以用於資訊檢索、資訊過濾、郵件分類等任務。

文字分類的發展:

基於機器學習的文字分類:

大致流程:

輸入文字–》設計特徵–》特徵選擇和降維–》分類器

一 人工特徵工程:

設計特徵:

統計詞表內所有詞在文字內出現的頻率

計算詞表內每個詞在文字中的tf-idf

統計n-grams片語資訊

特徵選擇和特徵降維:

資訊增益、互資訊等

pca、svd等

二 淺層分類模型:

svm、knn、決策樹

基於深度學習的文字分類:

另一種基於卷積神經網路的文字分類模型

1.**整體框架

0.摘要

1.介紹

2.字元級別的卷積模型

3.對比模型&實驗

4.討論

5.總結和展望

2.傳統經典演算法

一 詞袋模型

演算法:構建乙個50000個詞的詞袋

對於一篇文件d,統計此表中每個詞在d**現的次數

根據詞表中每個詞在d**現的次數

(還有tfidf版本)

二 基於詞向量的k-means

演算法:首先將每個詞對映成乙個詞向量(使用訓練好的詞向量)

在所有的詞上使用k-means進行聚類,類別數為5000

對於每個詞,都劃分其屬於哪個k-means類

對於一篇文件d中的每個詞,檢視它屬於哪個類別,然後一篇文件就可以表示成乙個5000維的向量,每個位置代表這篇文件中有多少屬於這個類別的詞

後面接多分類的logistic回歸

三 長短時記憶網路模型

演算法:將訓練好的word2vec詞向量輸入到lstm

lstm每個時間步的輸出取平均作為文件的表示

後面接乙個多分類的logistic回歸

3.模型

文字分類模型:

輸入的是字元的one-hot表示而不是word embedding ,然後後面接卷積神經網路分類器。

4.實驗和結果

資料集(8個)

本文提出的字元級別的文字分類模型在文字分類資料集上都能取得最好或者有競爭力的結果(現在是打擊物件,是個模型就比這個高

根據錯誤率直觀地和本文提出的模型進行比較,如果大於0就是比本文的模型差,如果大於0就是比文字的模型好

5.討論和總結

本文的模型簡單,非常容易復現,並且測試的資料集非常多,所以是很多模型的對比實驗

文字提出的模型缺點是什麼?

在比較小的資料集上表現一般,並且模型比較深,引數很多

其他的基於字元的模型?

使用char embedding 的方法

**主要創新點

a 提出一種基於字元的文字分類模型

b 證明了字元可以像單詞一樣用於文字分類,讓網路去學習,而不是詞向量去學習,學習乙個很好的網路而不是乙個詞向量表示

c 在多個資料集上表現良好

總結

NLP 基於深度學習的文字分類2

另外提出兩種更加高效的訓練方法 1.skip grams原理和網路結構 word2vec模型中,主要有skip gram和cbow兩種模型,從直觀上理解,skip gram是給定input word來 上下文。而cbow是給定上下文,來 input word。word2vec模型實際上分為了兩個部分...

基於DL的文字分類綜述

新聞分類系統可以幫助使用者實時獲取感興趣的資訊。識別新興新聞主題並根據使用者興趣推薦相關新聞是新聞分類的兩個主要應用。主題分析試圖通過識別文字主題來自動從文字中獲取含義。主題分類是主題分析最重要的組成技術之一。主題分類的目的是為每個文件分配乙個或多個主題,以使其更易於分析。問答系統有兩種型別 抽取式...

從0到1構建新聞長文字分類系統

新聞分類系統,顧名思義,就是對於一片新聞或者是一片文章,進行自動的分類,例如政治,財經,娛樂等等 從技術角度講,其實屬於自然語言處理中比較經典的文字分類問題。當然在乙個工業級別的分類系統當中,會遇到各種各樣的問題,例如語料優化,文字預處理,特徵抽取,模型選擇及融合,硬規則等一系列問題。本人有幸在國內...