文字的向量化表示總結

文字向量化，顧名思義就是將一段文字（一篇文章，乙個段落或者是乙個句子）變成乙個向量。在盡可能不丟失原始文字資訊的情況下，將文字變成可以計算的向量，可以幫助後續的文字聚類、分類、相似度匹配等等的諸多任務。

1.詞集模型：one-hot編碼向量化文字（統計各詞在文字中是否出現）

2.詞袋模型：文件**現的詞對應的one-hot向量相加（統計各詞在文字**現次數，在詞集模型的基礎上。）

3.詞袋模型+idf：tfidf向量化文字（詞袋模型+idf值，考慮了詞的重要性）

4.n-gram模型：考慮了詞的順序

1到5的出現是後者為了彌補前者的不足。

詞集模型沒有考慮詞的頻率，因此出現了詞袋模型

詞袋模型沒有考慮詞的重要度，因此出現了詞袋+idf的模型

詞袋模型沒有考慮詞的順序，因此出現了n-gram模型

n-gram模型的優點是考慮了詞的順序，但是會出現詞表膨脹的問題。

注意：本文不考慮共現矩陣以及降維

常說的文字向量化表示方法將上述幾種模型分為：離散化表示方法和分布式表示方法

離散化表示方法：包括詞袋模型（可用tf-idf進行修正）和n-gram模型

分布式表示方法：word2vec模型

離散化表示方法的問題：

無法衡量詞向量之間的關係

詞的維度隨著語料庫的增長膨脹、n-gram詞序列隨著語料庫膨脹更快

資料稀疏問題

分布式表示方法的優點：

保證了詞的相似性

保證了詞空間分布的相似性

參考：1.nlp | 文字特徵向量化方法

2.講義《詞向量到word2vec相關應用》

3.word2vec有什麼應用？

4.用word2vec模型對文件進行自動分類

5.文字挖掘預處理之向量化與hash trick

文字向量化

table of contents概述 word2vec nnlm c wcbow and skip gram doc2vec str2vec 文字表示是自然語言處理中的基礎工作，文字表示的好壞直接影響到整個自然語言處理系統的效能。文字向量化就是將文字表示成一系列能夠表達文字語義的向量，是文字表示的...

文字向量化

文字向量化，就是把文字轉化為向量形式。這裡用兩種方式實現本文向量，一種是tf方式，一種是tf idf方式，且這裡向量的長度就是字典的長度。計算兩個向量余弦相似度import math defcount cos similarity vec 1,vec 2 if len vec 1 len vec 2...

文字資訊向量化

from sklearn.feature extraction.text import countvectorizer countvec countvectorizer min df 2 兩個以上文件出現的才保留文件的詞與詞之間用空格分隔 x countvec.fit transform 我們都...

文字的向量化表示總結

文字向量化

文字向量化

文字資訊向量化

相關推薦