文字分類知識

2021-09-28 20:07:46 字數 1586 閱讀 8816

文字分類是在預定義的分類體系下,根據文字的特徵(內容和屬性),將給定文字與乙個或者多個類別相關聯的過程。最終目的是找到乙個有效的對映函式,將輸入的視覺化文字對映為預定義分類體系下的乙個或者多個類別。因此,文字分類有兩個關鍵問題:乙個是文字的表示,另乙個就是分類器的設計。

**|輸入文件|—> 預處理 —> **文字表示** —> **分類器** —> |類別輸出|**

圖1 文字分類系統示意圖

總的來說,系統使用訓練樣本進行特徵選擇和分類器引數訓練(預處理),根據選擇的特徵對待分類的輸入樣本進行形式化(文字表示),然後輸入到分類器進行類別判定,最後得到輸入樣本的類別。

通常採用向量空間模型(vsm)進行文字分類。vsm是通過訓練樣本提取出n個特徵,構成n維空間,每個文字對應各個特徵的權重組成該空間內的乙個向量。

運用vsm模型進行文字分類主要經過兩個步驟:一是根據訓練樣本集生成文字表示所需要的特徵項序列(特徵抽取),二是根據文字特徵項序列,對訓練樣本集和測試集中各個文字進行權重賦值。

上述文字表示中,第一重要步驟就是特徵抽取。其中抽取的特徵項可以選擇字、詞、短語、「概念」等多種元素。下圖為常用的特徵選取方法。

**為2023年復旦大學ijcai 上的發表的關於迴圈神經網路在多工文字分類上的應用:

不同於上述文字分類提及的傳統特徵抽取、分類器設計方法,該**採用機器學習中深度學習的rnn網路進行樣本訓練,其中使用lstm進行特徵抽取。(注:關於rnn,lstm的知識後面再次補足)

該模型中不同的任務(m,n)共享乙個同樣的lstm層,以及他們各自輸入的詞嵌入層共享乙個詞嵌入層。針對每乙個任務,其輸入由兩部分拼接而成,即具體任務和共享詞嵌入.

每乙個任務有自己的list單元,但是可以相互使用對方的list單元資訊(兩兩結合學習)

增加門控,通過改變記憶單元的內容,從而決定接受其他任務lstm層的資訊量

每乙個任務有自己的乙個lstm層,且所有的任務通過乙個共享的雙向lstm層(前向後向拼接輸出)進行資訊共享。重新定義lstm層的記憶單元內容,引數由訓練獲得。

知識總結 文字分類

基本上機器學習和深度學習對於文字分類的pipeline都是上圖這個流程。區別 傳統的分類器在nlp競賽中都不太好用了,所以基本現在都用深度學習。最重要的兩個步驟 1.資料轉化為資訊,即文字表示工作,可以理解為詞向量訓練 2.資訊轉化為知識,即做好分類器,可以理解為模型設計 文字表示工作 1.首先關注...

文字分類 libsvm

關於 libsvm 的介紹以及相關 網上很多,感興趣可以找找。這是libsvm 這裡主要是針對之前學習過的幾種特徵篩選演算法用 libsvm 進行比較。採用搜狗實驗室的資料,選擇商業類文字 1001 篇,娛樂類文字 1208 篇,測試集 29904 篇。分別採用文件頻次,卡方分布,互資訊,資訊增益來...

文字分類四

下面是使用knn演算法來做的。資料均是由前面的程式生成的。做完這個之後,就是將每一步整合起來。然後再盡可能的優化,使得程式效率更好。然後可以嘗試不同的特徵選擇演算法和分類演算法,當然最後要是能有自己的一些小小改進就好了。不過至少有了乙個還可以的結果了。include include include ...