文件詞袋模型

2021-08-13 17:22:17 字數 1162 閱讀 8646

詞袋模型記錄了單詞在詞彙表中出現的次數。

def

loaddataset

():#建立文件集合以及標籤

postinglist = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],

['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],

['my', 'dalmation', 'is', 'so', 'cute', 'i', 'love', 'him'],

['stop', 'posting', 'stupid', 'wprthless', 'garbage'],

['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],

['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']] #進行詞條切分後的文件集合

classvec = [0, 1, 0, 1, 0, 1] #1表示侮辱性文字,0表示正常言論

return postinglist, classvec

defcreatevocablist

(dataset):

#建立詞彙表

vocabset = set() #建立乙個空子集

for document in dataset:

vocabset = vocabset | set(document) #set子集並運算,建立乙個不重複詞列表

return list(vocabset)

#詞袋模型

defbagofwords2vecmn

(vocablist, inputset):

#vocablist詞彙表,inputset輸入文件

returnvec = [0]*len(vocablist) #建立乙個與vocablist等長的0向量

for word in inputset:

if word in vocablist:

returnvec[vocablist.index(word)] += 1

#相應的位置置1,計算出現的次數

return returnvec

詞袋模型(bag of words,BOW

詞袋模型是自然語言處理中在建模文字時常用的文字表示方法。維基百科上的給出如下的例子 john likes to watch movies.mary likes too.john also likes to watch football games.將上面的兩句話中看作乙個文件集,列出文件 現的所有單...

文字向量化 詞袋模型 TF IDF

對文字資料進行建模,有兩個問題需要解決 模型進行的是數 算,因此需要數值型別的資料,而文字不是數值型別資料。模型需要結構化資料,而文字是非結構化資料。將文字轉換為數值特徵向量的過程,稱為文字向量化。將文字向量化,可以分為如下步驟 對文字分詞,拆分成更容易處理的單詞。將單詞轉換為數值型別,即使用合適的...

DBOW詞袋訓練工具

啟動指令碼 說明 安裝安裝visual map,見 catkin build vslam 使用執行檔案 devel lib bag tool bag tool exe 引數1 輸出的模型的檔名,比如freaktest.bin 引數2 描述型別,freak 或者 orb 引數4 模型的分支數 引數5 ...