中文分詞元件

cmd執行命令：mecab -d mecab-chinesedic-binary wakati wiki.zh.text.jian -o wiki.zh.text.jian.seg -b 10000000

其中，wiki.zh.text.jian是乙個中文資料集，wiki.zh.text.jian.seg為分割後文字。

2.使用中文分詞工具jieba

#encoding=utf-8

import

jieba

#全模式

text = "我來到北京清華大學"

seg_list = jieba.cut(text, cut_all=true

) print

u"[全模式]: "

, "/ "

.join(seg_list)

#精確模式

seg_list = jieba.cut(text, cut_all=false

) print

u"[精確模式]: "

, "/ "

.join(seg_list)

#預設是精確模式

seg_list = jieba.cut(text)

u"[預設模式]: "

, "/ "

.join(seg_list)

#新詞識別「杭研」並沒有在詞典中,但是也被viterbi演算法識別出來了

seg_list = jieba.cut("他來到了網易杭研大廈"

)

u"[新詞識別]: "

, "/ "

.join(seg_list)

#搜尋引擎模式

seg_list = jieba.cut_for_search(text)

u"[搜尋引擎模式]: "

, "/ "

.join(seg_list)

#當然也可以用自己定義的詞典如：

#匯入自定義詞典

jieba.load_userdict("dict.txt"

)

#讀取檔案並儲存

從baiduspider檔案中讀取0001.txt~0204.txt檔案，分別進行分詞處理再儲存。

[python]view plain

copy

#encoding=utf-8

import

sys

import

codecs

import

shutil

import

jieba

import

jieba.analyse

#匯入自定義詞典

) #精確模式

output = ' '

.join(list(seglist))

#空格拼接

output

result.write(output + '\r\n'

) line = source.readline()

else

: print

'end file: '

+ str(num)

source.close()

result.close()

num = num + 1

else

: print

'end all'

#run function

if__name__ ==

'__main__'

: read_file_cut()

scws中文分詞元件

使用類方法分詞 so scws new so set charset gbk 這裡沒有呼叫 set dict 和 set rule 系統會自動試呼叫 ini 中指定路徑下的詞典和規則檔案 so send text 我是乙個中國人,我會c 語言,我也有很多t恤衣服 while tmp so get r...

Lucene中文分詞元件 JE Analysis

採用正向最大匹配的中文分詞演算法，相當於分詞粒度等於0 mmanalyzer analyzer new mmanalyzer 引數為分詞粒度當字數等於或超過該引數，且能成詞，該詞就被切分出來 mmanalyzer analyzer new mmanalyzer int wordlength 字串切...

Python中文分詞元件jieba

output 全模式我來到北京清華清華大學華大大學精確模式我來到北京清華大學新詞識別他,來到,了,網易,杭研,大廈此處，杭研並沒有在詞典中，但是也被viterbi演算法識別出來了搜尋引擎模式小明,碩士,畢業,於,中國,科學,學院,科學院,中國科學院,計算,計算所,...

中文分詞元件

scws中文分詞元件

Lucene中文分詞元件 JE Analysis

Python中文分詞元件jieba

相關推薦