Python分詞模組推薦 jieba中文分詞

2021-06-26 14:00:36 字數 2291 閱讀 2576

一、結巴中文分詞採用的演算法

二、結巴中文分詞支援的分詞模式

目前結巴分詞支援三種分詞模式:

精確模式,試圖將句子最精確地切開,適合文字分析;

全模式,把句子中所有的可以成詞的詞語都掃瞄出來, 速度非常快,但是不能解決歧義;

搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞。

# -*- coding:utf-8 -*-

import jieba

text = '我來到北京清華大學'

default_mode =jieba.cut(text)

full_mode = jieba.cut(text,cut_all=true)

search_mode = jieba.cut_for_search(text)

print "精確模式:","/".join(default_mode)

print "全模式:","/".join(full_mode)

print "搜尋引擎模式:","/".join(search_mode)

精確模式: 我/來到/北京/清華大學

全模式: 我/來到/北京/清華/清華大學/華大/大學

搜尋引擎模式: 我/來到/北京/清華/華大/大學/清華大學

上述**解釋: 

三、結巴中文分詞的其他功能

1、新增或管理自定義詞典

結巴的所有字典內容存放在dict.txt,你可以不斷的完善dict.txt中的內容。

3.詞性標註

對一句話進行切分後,對每個詞進行詞性標註,是名詞還是動詞

具體示例:

# -*- coding:utf-8 -*-

import jieba.analyse

text = "結巴中文分詞模組是乙個非常好的python分詞元件"

tags = jieba.analyse.extract_tags(text,2)

#! /usr/bin/env python2.7

#coding:utf-8

import jieba

import jieba.posseg

print "full mode:","/".join(jieba.cut('始游泳'))

print "full mode:","/".join(jieba.cut('過郭美美'))

s=["我勒個去","費打**","響全世界","線情人"]

for i in s:

pos=

seg=jieba.posseg.cut(i)

for j in seg:

print j.word,'/',j.flag,'#',

print

#----------------------------------

string="當我輸給青雉的時候就在想,在以後的航海中再遇到像他那麼強的對手的時候"

seg=jieba.posseg.cut(string)

pos=

for i in seg:

for i in pos:

print i[0],'/',i[1],"#",

輸出結果:

full mode:building prefix dict from e:\python27\lib\site-packages\jieba\dict.txt ...

loading model cost 0.941999912262 seconds.

prefix dict has been built succesfully.

始/游泳

full mode: 過/郭美美

我 / r # 勒 / v # 個 / q # 去 / v #

費 / v # 打** / l #

響 / zg # 全世界 / n #

線 / n # 情人 / n #

當 / p # 我 / r # 輸給 / v # 青雉 / n # 的 / uj # 時候 / n # 就 / d # 在 / p # 想 / v # , / x # 在 / p # 以後 / f # 的 / uj # 航海 / n # 中 / f # 再 / d # 遇到 / v # 像 / v # 他 / r # 那麼 / r # 強 / a # 的 / uj # 對手 / v # 的 / uj # 時候 / n #

更多資訊請檢視:

Python記錄日誌模組推薦 loguru!

在做專案的時候一直在用python自帶的模組logging,進行日誌的記錄,雖然他們滿足我大部分的要求,但是還是有很多缺點,例如需要額外的配置 不能自動刪除時間久的日誌檔案等等。難道真的沒有比較好的第三方模組嗎。於是我在網上langlanglang 咦?還真到了乙個比較好的模組來記錄日誌。他就是今天...

python中文分詞 結巴分詞

中文分詞是中文文字處理的乙個基礎性工作,結巴分詞利用進行中文分詞。其基本實現原理有三點 基於trie樹結構實現高效的詞圖掃瞄,生成句子中漢字所有可能成詞情況所構成的有向無環圖 dag 採用了動態規劃查詢最大概率路徑,找出基於詞頻的最大切分組合 對於未登入詞,採用了基於漢字成詞能力的hmm模型,使用了...

中文分詞模組 jieba筆記

裡面主要羅列一些常用方法 usr bin env python coding utf 8 import jieba jieba.load userdict mydict.txt 匯入自己的詞典 jieba.add word 西城校區 新增詞進入詞典 jieba.del word 去了 在詞典中刪除乙...