python 中文分詞 FMM 演算法

2021-08-23 15:42:40 字數 566 閱讀 9678

fmm演算法的最簡單思想是使用貪心演算法向前找n個,如果這n個組成的詞在詞典中出現,就ok,如果沒有出現,那麼找n-1個...然後繼續下去。假如n個詞在詞典中出現,那麼從n+1位置繼續找下去,知道句子結束。

測試**:

dictions = {} dictions["ab"] = 1 dictions["cd"] = 2 dictions["abc"] = 1 dictions["ss"] = 1 dictions[convertgbktoutf("好的")] = 1 dictions[convertgbktoutf("真的")] = 1 sentence = "asdfa好的是這樣嗎vasdiw呀真的daf dasfiw asid是嗎?" s = fmm(convertgbktoutf(sentence),dictions) for i in s: print i.decode("utf-8")

文字測試**:

test = open("test.txt","r") for line in test: s = fmm(covertgbktoutf(line),dictions) for i in s: print i.decode("utf-8")

python實現中文分詞FMM演算法例項

fmm演算法的最簡單思想是使用貪心演算法向前找n個,如果這n個組成的詞在詞典 現,就ok,如果沒有出現,那麼找n 1個.然後繼續下去。假如n個詞在詞典 現,那麼從n 1位置繼續找下去,直到句子結束。import re def preprocess sentence,edcode utf 8 sent...

python實現中文分詞FMM演算法例項

fmm演算法的最簡單思想是使用貪心演算法向前找n個,如果這n個組成的詞在詞典 現,就ok,如果沒有出現,那麼找n 1個.然後繼續下去。假如n個詞在詞典 現,那麼從n 1位置繼續找下去,直到句子結束。import re def preprocess sentence,edcode utf 8 sent...

中文分詞演算法

基於詞的頻度統計的分詞方法 基於知識理解的分詞方法 中文分詞演算法基本上可以分基於詞典的演算法 詞庫匹配以及基於詞頻的方法 將詞典中所有的詞按照從長到短的順序在文章中進行檢索,直至文章結束。效率比較低 漢字欄位與乙個 充分大 的詞典進行匹配,如果匹配成功,則識別出乙個詞。根據掃瞄方向的不同分為正向匹...