NLP基礎實驗 中文分詞 jieba

2021-09-22 16:42:16 字數 1871 閱讀 5333

中文分詞有很多種,常見的比如有中科院計算所 nlpir、哈工大 ltp、清華大學 thulac 、斯坦福分詞器、hanlp 分詞器、jieba 分詞、ikanalyzer 等。

官方: 

三種分詞演算法

支援三種分詞模式:

import jieba

content = "現如今,機器學習和深度學習帶動人工智慧飛速的發展,並在處理、語音識別領域取得巨大成功。"

# 1、精確

segs_1 = jieba.cut(content, cut_all=false)

print("/".join(segs_1))

#用lcut生成list

segs_2 = jieba.lcut(content)

print(segs_2)

# 2、全模式

segs_3 = jieba.cut(content, cut_all=true)

print("/".join(segs_3))

# 3、搜尋引擎

segs_4 = jieba.cut_for_search(content)

print("/".join(segs_4))

1

現如今/,/機器/學習/和/深度/學習/帶動/人工智慧/飛速/的/發展/,/並/在//處理/、/語音/識別/領域/取得/巨大成功/。

['現如今', ',', '機器', '學習', '和', '深度', '學習', '帶動', '人工智慧', '飛速', '的', '發展', ',', '並', '在', '', '處理', '、', '語音', '識別', '領域', '取得', '巨大成功', '。']

2現如今/如今///機器/學習/和/深度/學習/帶動/動人/人工/人工智慧/智慧型/飛速/的/發展///並/在//處理///語音/識別/領域/取得/巨大/巨大成功/大成/成功//

3如今/現如今/,/機器/學習/和/深度/學習/帶動/人工/智慧型/人工智慧/飛速/的/發展/,/並/在//處理/、/語音/識別/領域/取得/巨大/大成/成功/巨大成功/。

lcut生成 list

jieba.cut 以及jieba.cut_for_search返回的結構都是乙個可迭代的 generator,可以使用 for 迴圈來獲得分詞後得到的每乙個詞語(unicode)。jieba.lcut 對 cut 的結果做了封裝,l 代表 list,即返回的結果是乙個 list 集合。同樣的,用jieba.lcut_for_search也直接返回 list 集合。

自定義新增詞到字典

jieba 可以很方便地獲取中文詞性,通過 jieba.posseg 模組實現詞性標註。

import jieba.posseg as psg

content = "現如今,機器學習和深度學習帶動人工智慧飛速的發展,並在處理、語音識別領域取得巨大成功。"

print([(x.word,x.flag) for x in psg.lcut(content)])

[('現如今', 't'), (',', 'x'), ('機器', 'n'), ('學習', 'v'), ('和', 'c'), ('深度', 'ns'), ('學習', 'v'), ('帶動', 'v'), ('人工智慧', 'n'), ('飛速', 'n'), ('的', 'uj'), ('發展', 'vn'), (',', 'x'), ('並', 'c'), ('在', 'p'), ('', 'n'), ('處理', 'v'), ('、', 'x'), ('語音', 'n'), ('識別', 'v'), ('領域', 'n'), ('取得', 'v'), ('巨大成功', 'nr'), ('。', 'x')]

python中文分詞工具 結巴分詞jieba

支援三種分詞模式 精確模式,試圖將句子最精確地切開,適合文字分析 全模式,把句子中所有的可以成詞的詞語都掃瞄出來,速度非常快,但是不能解決歧義 搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞。支援繁體分詞 支援自定義詞典 基於字首詞典實現高效的詞圖掃瞄,生成句子中...

NLP系列 中文分詞(基於詞典)

詞是最小的能夠獨立活動的有意義的語言成分,一般分詞是自然語言處理的第一項核心技術。英文中每個句子都將詞用空格或標點符號分隔開來,而在中文中很難對詞的邊界進行界定,難以將詞劃分出來。在漢語中,雖然是以字為最小單位,但是一篇文章的語義表達卻仍然是以詞來劃分的。因此處理中文文字時,需要進行分詞處理,將句子...

NLP規則分詞實驗 Java版

完成日期 2018.11.03 github 詳細理論介紹請看 1 已 對外經濟技術合作與交流不斷擴大。為例,演示頁面如下 可以看到,當rmm與mm的分詞結果相同時,就直接輸出分詞結果。2 以 幼兒園地節目。為例,演示頁面如下 可以看到,當rmm與mm的分詞結果不相同時,將輸出兩種方法的分詞結果,然...