中文分詞模組 jieba筆記

2022-07-07 23:06:15 字數 808 閱讀 3569

裡面主要羅列一些常用方法

#

!/usr/bin/env python

#-*- coding:utf-8 -*-

import

jieba

jieba.load_userdict(

"mydict.txt

") #

匯入自己的詞典

jieba.add_word('

西城校區

') #

新增詞進入詞典

jieba.del_word('

去了') #

在詞典中刪除乙個詞

jieba.suggest_freq('

臺中', true) #

可調節單個詞語的詞頻,使其能(或不能)被分出來

#注意:自動計算的詞頻在使用 hmm 新詞發現功能時可能無效。

seg_list = jieba.cut("

今天有關雲計算的會議很好,所以我去了西城校區的北京建築大學還有山東台中的人們

", hmm=false) #

預設是精確搜尋模式,

#seg_list = jieba.cut("今天有關雲計算的會議很好,所以我去了西城校區的北京建築大學",call_all=true) #全文搜尋模式

#seg_list = jieba.cut_for_search("小明碩士畢業於中國科學院計算所,後在日本京都大學深造") # 搜尋引擎模式

print"/

".join(seg_list)

總的來說很容易上手,大家可以通過pip install jieba來進行安裝

中文分詞jieba學習筆記

四 詞性標註 五 並行分詞 六 返回詞語在原文的起止位置 注意 hmm模型 隱馬爾可夫模型 可以識別新詞 jieba.load userdict filename filename為自定義詞典的路徑 在使用的時候,詞典的格式和jieba分詞器本身的分詞器中的詞典格式必須保持一致,乙個詞佔一行,每一行...

中文分詞 jieba

支援繁體分詞 支援自定義詞典 mit 授權協議 對 python 2 3 均相容 試圖將句子最精確地切開,適合文字分析 import jieba def main s u 我在人民廣場吃著炸雞 cut jieba.cut s print type cut for word in cut print ...

Python分詞模組推薦 jieba中文分詞

一 結巴中文分詞採用的演算法 二 結巴中文分詞支援的分詞模式 目前結巴分詞支援三種分詞模式 精確模式,試圖將句子最精確地切開,適合文字分析 全模式,把句子中所有的可以成詞的詞語都掃瞄出來,速度非常快,但是不能解決歧義 搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞...