文字的向量化表示總結

2021-10-01 06:49:29 字數 914 閱讀 1296

文字向量化,顧名思義就是將一段文字(一篇文章,乙個段落或者是乙個句子)變成乙個向量。在盡可能不丟失原始文字資訊的情況下,將文字變成可以計算的向量,可以幫助後續的文字聚類、分類、相似度匹配等等的諸多任務。

1.詞集模型:one-hot編碼向量化文字(統計各詞在文字中是否出現)

2.詞袋模型:文件**現的詞對應的one-hot向量相加(統計各詞在文字**現次數,在詞集模型的基礎上。)

3.詞袋模型+idf:tfidf向量化文字(詞袋模型+idf值,考慮了詞的重要性)

4.n-gram模型:考慮了詞的順序

1到5的出現是後者為了彌補前者的不足。

詞集模型沒有考慮詞的頻率,因此出現了詞袋模型

詞袋模型沒有考慮詞的重要度,因此出現了詞袋+idf的模型

詞袋模型沒有考慮詞的順序,因此出現了n-gram模型

n-gram模型的優點是考慮了詞的順序,但是會出現詞表膨脹的問題。

注意:本文不考慮共現矩陣以及降維

常說的文字向量化表示方法將上述幾種模型分為:離散化表示方法和分布式表示方法

離散化表示方法:包括詞袋模型(可用tf-idf進行修正)和n-gram模型

分布式表示方法:word2vec模型

離散化表示方法的問題:

無法衡量詞向量之間的關係

詞的維度隨著語料庫的增長膨脹、n-gram詞序列 隨著語料庫膨脹更快

資料稀疏問題

分布式表示方法的優點:

保證了詞的相似性

保證了詞空間分布的相似性

參考:1.nlp | 文字特徵向量化方法

2.講義《詞向量到word2vec相關應用》

3.word2vec有什麼應用?

4.用word2vec模型對文件進行自動分類

5.文字挖掘預處理之向量化與hash trick

文字向量化

table of contents概述 word2vec nnlm c wcbow and skip gram doc2vec str2vec 文字表示是自然語言處理中的基礎工作,文字表示的好壞直接影響到整個自然語言處理系統的效能。文字向量化就是將文字表示成一系列能夠表達文字語義的向量,是文字表示的...

文字向量化

文字向量化,就是把文字轉化為向量形式。這裡用兩種方式實現本文向量,一種是tf方式,一種是tf idf方式,且這裡向量的長度就是字典的長度。計算兩個向量余弦相似度import math defcount cos similarity vec 1,vec 2 if len vec 1 len vec 2...

文字資訊向量化

from sklearn.feature extraction.text import countvectorizer countvec countvectorizer min df 2 兩個以上文件出現的才保留 文件的詞與詞之間用空格分隔 x countvec.fit transform 我們 都...