分詞演算法的python實現（正向最大匹配法）

正向最大匹配法又稱mm法，其基本思想是: 假設分詞詞典中的最長詞由i個漢字字元組成，則用被處理文件的當前字串中前i個字作為匹配字段查詢詞典。若詞典中存在這樣乙個字詞，則匹配成功，匹配字段作為乙個詞被切分出來，否則匹配失敗。應將匹配欄位中的最後乙個字去掉，對剩下的字串重新進行匹配處理。如此進行下去，直到匹配成功。然後取下乙個字字串進行匹配處理，直到文件被掃瞄完為止。

下面是我用python對mm演算法的簡單實現。其中用到的詞庫大家可以在網上找到。

#!/usr/bin/python
# -*- coding: utf-8 -*-
import os
note1=input("enter your input: "); #鍵入文字內容
head1=0;
i1=10;
wordlist1= #分詞存放列表
typeis=input("敏感詞檢測輸入0，分詞輸入其他任意數字：")
if (typeis=='0'): #選擇詞庫
f=open('./mingan.txt','r')
else:
f=open('./ciku.txt','r')
for eachline in f:
nlen=len(eachline)-1;
f.close()
deffunction1
(note,wordlist,head,i):
#分詞演算法
won=
while (head <= len(note)):
if (head>=(len(note)-i)):
i=len(note)-head
for p in range(i):
rear=head+i-p;
flag=0
for each in wordlist:
if (note[head:rear]==each):
print ("詞有",each);
head=head+len(each);
flag=1;
break;
if (flag==1):
break;
if (flag==0):
head=head+1;
return won
won1=function1(note1,wordlist1,head1,i1)
print(won1)
os.system("pause")

分詞演算法的python實現（正向最大匹配法）

中文分詞之正向最大匹配演算法

分詞最大正向匹配演算法及demo

分詞演算法正向最大匹配和逆向最大匹配實現

分詞演算法的python實現（正向最大匹配法）

中文分詞之正向最大匹配演算法

分詞 最大正向匹配演算法及demo

分詞演算法 正向最大匹配和逆向最大匹配實現

相關推薦

分詞最大正向匹配演算法及demo

分詞演算法正向最大匹配和逆向最大匹配實現