知識總結 文字分類

2021-10-03 20:25:10 字數 927 閱讀 3418

基本上機器學習和深度學習對於文字分類的pipeline都是上圖這個流程。區別:

傳統的分類器在nlp競賽中都不太好用了,所以基本現在都用深度學習。

最重要的兩個步驟:

1.資料轉化為資訊,即文字表示工作,可以理解為詞向量訓練

2.資訊轉化為知識,即做好分類器,可以理解為模型設計

文字表示工作

1. 首先關注語義粒度和文字長度

2. 詞向量選擇

3. 語言模型詞向量(elmo、bert)

問 題:

bow、

n−gr

am、詞

嵌入、語

言模型詞

向量的關

系?\color

問題:bow

、n−g

ram、

詞嵌入、

語言模型

詞向量的

關係?答:nlp基本問題是如何計算一段文字序列在某種語言下出現的概率?tf-idf沒有考慮到單詞之間的順序,使用詞頻來計算,後來有了n-gram語言模型,使用了隱馬爾可夫假設,ngram公升級了一下,考慮了n個詞構成的特徵,然後為了考慮整個句子的詞之間的關聯解決維度災難問題,出現了詞嵌入,w2v不是演算法,通常指的是它背後的cbow和skip-gram模型,但是w2v解決不了一詞多義問題,就出現了語言模型詞向量bert等。

模型設計工作

cnn-text工作原理:

文字分類知識

文字分類是在預定義的分類體系下,根據文字的特徵 內容和屬性 將給定文字與乙個或者多個類別相關聯的過程。最終目的是找到乙個有效的對映函式,將輸入的視覺化文字對映為預定義分類體系下的乙個或者多個類別。因此,文字分類有兩個關鍵問題 乙個是文字的表示,另乙個就是分類器的設計。輸入文件 預處理 文字表示 分類...

文字分類 libsvm

關於 libsvm 的介紹以及相關 網上很多,感興趣可以找找。這是libsvm 這裡主要是針對之前學習過的幾種特徵篩選演算法用 libsvm 進行比較。採用搜狗實驗室的資料,選擇商業類文字 1001 篇,娛樂類文字 1208 篇,測試集 29904 篇。分別採用文件頻次,卡方分布,互資訊,資訊增益來...

文字分類四

下面是使用knn演算法來做的。資料均是由前面的程式生成的。做完這個之後,就是將每一步整合起來。然後再盡可能的優化,使得程式效率更好。然後可以嘗試不同的特徵選擇演算法和分類演算法,當然最後要是能有自己的一些小小改進就好了。不過至少有了乙個還可以的結果了。include include include ...