python 中文分詞 FMM 演算法

fmm演算法的最簡單思想是使用貪心演算法向前找n個，如果這n個組成的詞在詞典中出現，就ok，如果沒有出現，那麼找n-1個...然後繼續下去。假如n個詞在詞典中出現，那麼從n+1位置繼續找下去，知道句子結束。

測試**：

dictions = {} dictions["ab"] = 1 dictions["cd"] = 2 dictions["abc"] = 1 dictions["ss"] = 1 dictions[convertgbktoutf("好的")] = 1 dictions[convertgbktoutf("真的")] = 1 sentence = "asdfa好的是這樣嗎vasdiw呀真的daf dasfiw asid是嗎？" s = fmm(convertgbktoutf(sentence),dictions) for i in s: print i.decode("utf-8")

文字測試**：

test = open("test.txt","r") for line in test: s = fmm(covertgbktoutf(line),dictions) for i in s: print i.decode("utf-8")

python 中文分詞 FMM 演算法

python實現中文分詞FMM演算法例項

python實現中文分詞FMM演算法例項

中文分詞演算法

python 中文分詞 FMM 演算法

python實現中文分詞FMM演算法例項

python實現中文分詞FMM演算法例項

中文分詞演算法

相關推薦