jieba簡易教程 分詞 詞性標註 關鍵詞抽取

2021-09-24 13:18:46 字數 3645 閱讀 3890

「jieba」 (chinese for 「to stutter」) chinese text segmentation: built to be the best python chinese word segmentation module.

支援三種分詞模式(預設是精確模式)

支援繁體分詞

支援自定義詞典

mit授權協議

直接使用pip install jieba進行安裝分詞

import jieba

segfull_list = jieba.cut(

"我喜歡中國!"

, cut_all=

true

)print

("full mode: "

+" "

.join(segfull_list)

)# 全模式

segdef_list = jieba.cut(

"我喜歡中國!"

, cut_all=

false

)print

("default mode: "

+" "

.join(segdef_list)

)# 精確模式

segset_list = jieba.cut(

"我喜歡中國!"

)print

("set mode:"

+" "

.join(segset_list)

)#預設是精確模式

seg_search_list = jieba.cut_for_search(

"我在暑假期間去北京旅遊,參觀了清華大學和圓明園"

)# 搜尋引擎模式

print

("search mode:"

+" "

.join(seg_search_list)

)

full mode: 我 喜歡 中國

default mode: 我 喜歡 中國 !

set mode:我 喜歡 中國 !

search mode:我 在 暑假 期間 去 北京 旅遊 , 參觀 了 清華 華大 大學 清華大學 和 圓明園

新增自定義詞典

# **示例

print

('/'

.join(jieba.cut(

'如果放到post中將出錯。'

, hmm=

false))

)

如果/放到/post/中將/出錯/。

jieba.suggest_freq(

('中'

,'將'),

true

)

print

('/'

.join(jieba.cut(

'如果放到post中將出錯。'

, hmm=

false))

)

如果/放到/post/中/將/出錯/。

print

('/'

.join(jieba.cut(

'「臺中」正確應該不會被切開'

, hmm=

false))

)

「/臺/中/」/正確/應該/不會/被/切開

jieba.suggest_freq(

'臺中'

,true

)

print

('/'

.join(jieba.cut(

'「臺中」正確應該不會被切開'

, hmm=

false))

)

「/臺中/」/正確/應該/不會/被/切開

import jieba.analyse

jieba.analyse.tfidf(idf_path=none) 新建 tfidf 例項,idf_path 為 idf 頻率檔案

#示例

import jieba.analyse

sentence =

"我愛自然語言處理技術!"

tags = jieba.analyse.extract_tags(sentence, withweight=

true

, topk=

2, allowpos=()

)print

(tags)

[(『自然語言』, 3.4783139164), (『處理』, 1.8036185524533332)]

算**文: textrank: bringing order into texts

基本思想:

以固定視窗大小(預設為5,通過span屬性調整),詞之間的共現關係,構建圖

計算圖中節點的pagerank,注意是無向帶權圖

jieba.analyse.textrank(sentence, topk=

20, withweight=

false

, allowpos=

('ns'

,'n'

,'vn'

,'v'

))

[『技術』, 『處理』]

import jieba.posseg as pseg

sentence =

"我喜歡中國!"

words = pseg.cut(sentence)

for word, flag in words:

print

('%s %s'

%(word, flag)

)

我 r

喜歡 v

中國 ns

! x

# 預設模式

result = jieba.tokenize(u'我喜歡中國'

)for tk in result:

print

("word %s\t\t start: %d \t\t end:%d"

%(tk[0]

,tk[1]

,tk[2]

))

word 我 start: 0 end:1

word 喜歡 start: 1 end:3

word 中國 start: 3 end:5

# 搜尋模式

result = jieba.tokenize(u'我在清華大學讀書'

,mode =

'search'

)for tk in result:

print

("word %s\t\t start: %d \t\t end:%d"

%(tk[0]

,tk[1]

,tk[2]

))

word 我 start: 0 end:1

word 在 start: 1 end:2

word 清華 start: 2 end:4

word 華大 start: 3 end:5

word 大學 start: 4 end:6

word 清華大學 start: 2 end:6

word 讀書 start: 6 end:8

jieba分詞及詞性標註

jieba分詞及詞性標註 想著先分詞,再給分過的詞標註詞性 很簡單但是弄了蠻久 也不簡便 要學習啊 雞湯 腳踏實地,眼看前方 import jieba import jieba.posseg as pseg jieba.load userdict userdict1.txt 建立停用詞list de...

Jieba分詞詞性標註以及詞性說明

import jieba import jieba.analyse import jieba.posseg def dosegment all sentence 帶詞性標註,對句子進行分詞,不排除停詞等 param sentence 輸入字元 return sentence seged jieba....

python的jieba分詞詞性標註

在明哥的嚴厲催促下,我終於註冊了我自己的部落格,並且這是我寫的第一篇部落格,寫得不好還請大家多多指出,以幫助小弟在程式設計之路上走得更遠。好了,廢話就不多說了,直接進入主題吧。號稱 做最好的python中文分詞元件 的jieba分詞是python語言的乙個中文分詞包。它的特點有 支援三種分詞模式 精...