樸素貝葉斯文字分類演算法java實現 二

2021-06-18 11:48:06 字數 489 閱讀 8413

為了加深理解,自己實現了多項式樸素貝葉斯對文字的自動分類。文字樣本採用了搜狗提供的文字分類語料庫.

相關程式已經放在github上:

*****bayesmain:主函式類

defaultstopwordshandler:單詞停用處理類

multinomialmodel*****bayes:多項式樸素貝葉斯實現類

trainsampledatamanager:訓練樣本管理器

chinesetokenizer:中文分詞類

訓練樣本採用了搜狗的mini版本,該檔案已經放入在lib目錄下。

中文分詞採用es-ik進行分詞。

使用的時候,在*****bayesmain類改變sample_data值即可。

如果你使用的文字分類樣本較多,在執行*****bayesmain是設定jvm引數,已防止溢位。

-verbose:gc -xms1024m -xmx1024m

sklearn 樸素貝葉斯文字分類5

在這次的貝葉斯試驗中,用到了交叉驗證,就是假如把資料集分成10份,每次取其中的乙份作為test資料,會得到10個測試的準確率,我們可以求10份的平均值,作為這一次的準確率。當我們求出測試集的矩陣大小為 18846,173452 我們可以看出17萬個詞,其實在選擇特徵時用不了這麼多,接下來我們看一下選...

文字分類演算法之 貝葉斯文字分類演算法

文字分類過程 例如文件 good good study day day up 可以用乙個文字特徵向量來表示,x good,good,study,day,day up 在文字分類中,假設我們有乙個文件d x,類別 c又稱為標籤。我們把一堆打了標籤的文件集合 作為訓練樣本,x c 例如 對於這個只有一句...

TextBlob實戰之樸素貝葉斯文字分類

1.準備資料集 訓練集和測試集 train i love this sandwich.pos this is an amazing place pos i feel very good about these beers.pos this is my best work.pos what an aw...