知識總結文字分類

基本上機器學習和深度學習對於文字分類的pipeline都是上圖這個流程。區別：

傳統的分類器在nlp競賽中都不太好用了，所以基本現在都用深度學習。

最重要的兩個步驟：

1.資料轉化為資訊，即文字表示工作，可以理解為詞向量訓練

2.資訊轉化為知識，即做好分類器，可以理解為模型設計

文字表示工作

1. 首先關注語義粒度和文字長度

2. 詞向量選擇

3. 語言模型詞向量（elmo、bert）

問題：

bow、

n−gr

am、詞

嵌入、語

言模型詞

向量的關

系？\color

問題：bow

、n−g

ram、

詞嵌入、

語言模型

詞向量的

關係？答：nlp基本問題是如何計算一段文字序列在某種語言下出現的概率？tf-idf沒有考慮到單詞之間的順序，使用詞頻來計算，後來有了n-gram語言模型，使用了隱馬爾可夫假設，ngram公升級了一下，考慮了n個詞構成的特徵，然後為了考慮整個句子的詞之間的關聯和解決維度災難問題，出現了詞嵌入，w2v不是演算法，通常指的是它背後的cbow和skip-gram模型，但是w2v解決不了一詞多義問題，就出現了語言模型詞向量bert等。

模型設計工作

cnn-text工作原理：

知識總結文字分類

文字分類知識

文字分類 libsvm

文字分類四

知識總結 文字分類

文字分類知識

文字分類 libsvm

文字分類四

相關推薦

知識總結文字分類