樸素貝葉斯文字分類演算法java實現二

為了加深理解，自己實現了多項式樸素貝葉斯對文字的自動分類。文字樣本採用了搜狗提供的文字分類語料庫.

相關程式已經放在github上：

*****bayesmain:主函式類

defaultstopwordshandler：單詞停用處理類

multinomialmodel*****bayes：多項式樸素貝葉斯實現類

trainsampledatamanager：訓練樣本管理器

chinesetokenizer:中文分詞類

訓練樣本採用了搜狗的mini版本,該檔案已經放入在lib目錄下。

中文分詞採用es-ik進行分詞。

使用的時候，在*****bayesmain類改變sample_data值即可。

如果你使用的文字分類樣本較多，在執行*****bayesmain是設定jvm引數，已防止溢位。

-verbose:gc -xms1024m -xmx1024m

sklearn 樸素貝葉斯文字分類5

在這次的貝葉斯試驗中，用到了交叉驗證，就是假如把資料集分成10份，每次取其中的乙份作為test資料，會得到10個測試的準確率，我們可以求10份的平均值，作為這一次的準確率。當我們求出測試集的矩陣大小為 18846,173452 我們可以看出17萬個詞，其實在選擇特徵時用不了這麼多，接下來我們看一下選...

文字分類演算法之貝葉斯文字分類演算法

文字分類過程例如文件 good good study day day up 可以用乙個文字特徵向量來表示，x good,good,study,day,day up 在文字分類中，假設我們有乙個文件d x，類別 c又稱為標籤。我們把一堆打了標籤的文件集合作為訓練樣本，x c 例如對於這個只有一句...

TextBlob實戰之樸素貝葉斯文字分類

1.準備資料集訓練集和測試集 train i love this sandwich.pos this is an amazing place pos i feel very good about these beers.pos this is my best work.pos what an aw...

樸素貝葉斯文字分類演算法java實現 二

sklearn 樸素貝葉斯文字分類5

文字分類演算法之 貝葉斯文字分類演算法

TextBlob實戰之樸素貝葉斯文字分類

相關推薦

樸素貝葉斯文字分類演算法java實現二

文字分類演算法之貝葉斯文字分類演算法