機器學習入門之jieba分詞

2021-09-29 20:52:34 字數 2136 閱讀 6937

#coding=utf-

8import jieba

import jieba.posseg as pseg # 詞性標註

import re

# jieba自定義詞典

# jieba.

load_userdict()

# 更改匹配規則,讓其識別字典中的空格

jieba.re_han_default = re.

compile

("(.+)"

, re.

u) #針對於預設模式

# jieba.re_han_cut_all = re.

compile

("(.+)"

, re.

u) #針對於全模式

jieba.

add_word

("王者榮耀"

)jieba.

add_word

("小公尺 note3"

)sentence =

"我用小公尺 note3打王者榮耀2019上海交通大學聯賽"

# 全模式

seg_list = jieba.

cut(sentence=sentence,cut_all=true)

print "[全模式]:"

,"/ "

.join

(seg_list)

# 精確模式,也是預設模式

seg_list2 = jieba.

cut(sentence=sentence,cut_all=false)

print "[精確模式]:"

,"/ "

.join

(seg_list2)

# 搜尋引擎模式

seg_list3 = jieba.

cut_for_search

(sentence=sentence)

print "[搜尋引擎模式模式]:"

,"/ "

.join

(seg_list3)

# hmm針對於字典以外的詞,jieba使用hmm模型來進行匹配

seg_list4 = jieba.

cut(

"他來到了網易杭研大廈"

,hmm

=false)

print "[未啟用hmm]:"

,"/"

.join

(seg_list4)

seg_list5 = jieba.

cut(

"他來到了網易杭研大廈"

,hmm

=true)

print "[未啟用hmm]:"

,"/"

.join

(seg_list5)

# 結巴還支援繁體字的分詞

# 關鍵字提取

# jieba提供了兩種關鍵字提取的方法,tf

-idf,textrant

# tf詞頻,idf逆檔案頻率,二者相乘

# 即是認為乙個詞語在一篇文章**現次數越多,同時在所有文件**現次數越少,越能夠代表該文章

sentence2 =

"我認為乙個詞語在一篇文章**現次數越多,同時在所有文件**現次數越少,越能夠代表該文章"

cv = jieba.analyse.

extract_tags

(sentence=sentence2,topk=

20,withweight=true)

for i in cv:

print i[0]

,"==>"

,i[1

]print "*"*20

cv2 = jieba.analyse.

textrank

(sentence=sentence2,topk=

20,withweight=true)

for i in cv2:

print i[0]

,"==>"

,i[1

]#自定義語料庫

# jieba.analyse.

set_stop_words

("stop_words.txt"

)# jieba.analyse.

set_idf_path

("idf.txt.big"

);

jieba 分詞使用入門

1.介紹 jieba 是目前最好的 python 中文分詞元件,它主要有以下 3 種特性 import jieba import jieba.posseg as pseg import jieba.analyse as anls 2.分詞 可使用jieba.cut和jieba.cut for sea...

jieba分詞學習總結

1 jieba.cut 引數1 需要分詞的字串 引數2 是否採用全模式,預設是精確模式 seg list jieba.cut 這是乙個測試 cut all false 可以用 join seg list 2 新增自定義詞典 jieba.load userdict filename filename為...

jieba分詞學習筆記(二)

jieba分詞有多種模式可供選擇。可選的模式包括 同時也提供了hmm模型的開關。其中全切分模式就是輸出乙個字串的所有分詞,精確模式是對句子的乙個概率最佳分詞,而搜尋引擎模式提供了精確模式的再分詞,將長詞再次拆分為短詞。效果大抵如下 encoding utf 8 import jieba seg li...