文字分類知識

文字分類是在預定義的分類體系下，根據文字的特徵（內容和屬性），將給定文字與乙個或者多個類別相關聯的過程。最終目的是找到乙個有效的對映函式，將輸入的視覺化文字對映為預定義分類體系下的乙個或者多個類別。因此，文字分類有兩個關鍵問題：乙個是文字的表示，另乙個就是分類器的設計。 **|輸入文件|—> 預處理 —> **文字表示** —> **分類器** —> |類別輸出|** 圖1 文字分類系統示意圖總的來說，系統使用訓練樣本進行特徵選擇和分類器引數訓練（預處理），根據選擇的特徵對待分類的輸入樣本進行形式化（文字表示），然後輸入到分類器進行類別判定，最後得到輸入樣本的類別。

通常採用向量空間模型（vsm）進行文字分類。vsm是通過訓練樣本提取出n個特徵，構成n維空間，每個文字對應各個特徵的權重組成該空間內的乙個向量。運用vsm模型進行文字分類主要經過兩個步驟：一是根據訓練樣本集生成文字表示所需要的特徵項序列（特徵抽取），二是根據文字特徵項序列，對訓練樣本集和測試集中各個文字進行權重賦值。

上述文字表示中，第一重要步驟就是特徵抽取。其中抽取的特徵項可以選擇字、詞、短語、「概念」等多種元素。下圖為常用的特徵選取方法。

**為2023年復旦大學ijcai 上的發表的關於迴圈神經網路在多工文字分類上的應用：

不同於上述文字分類提及的傳統特徵抽取、分類器設計方法，該**採用機器學習中深度學習的rnn網路進行樣本訓練，其中使用lstm進行特徵抽取。(注：關於rnn，lstm的知識後面再次補足)

該模型中不同的任務（m,n）共享乙個同樣的lstm層，以及他們各自輸入的詞嵌入層共享乙個詞嵌入層。針對每乙個任務，其輸入由兩部分拼接而成，即具體任務和共享詞嵌入.

每乙個任務有自己的list單元，但是可以相互使用對方的list單元資訊（兩兩結合學習）

增加門控，通過改變記憶單元的內容，從而決定接受其他任務lstm層的資訊量

每乙個任務有自己的乙個lstm層，且所有的任務通過乙個共享的雙向lstm層（前向後向拼接輸出）進行資訊共享。重新定義lstm層的記憶單元內容，引數由訓練獲得。

文字分類知識

知識總結文字分類

文字分類 libsvm

文字分類四

文字分類知識

知識總結 文字分類

文字分類 libsvm

文字分類四

相關推薦

知識總結文字分類