Python中文分詞庫 jieba

2022-05-24 11:39:13 字數 1737 閱讀 5299

(1).介紹

jieba是優秀的中文分詞第三方庫。由於中文文字之間每個漢字都是連續書寫的,我們需要通過特定的手段來獲得其中的每個單詞,這種手段就叫分詞。而jieba是python計算生態中非常優秀的中文分詞第三方庫,需要通過安裝來使用它。

jieba庫提供了三種分詞模式,但實際上要達到分詞效果只要掌握乙個函式就足夠了,非常的簡單有效。

安裝第三方庫需要使用pip工具,在命令列下執行安裝命令(不是idle)。注意:需要將python目錄和其目錄下的scripts目錄加到環境變數中。

使用命令pip 

install 

jieba安裝第三方庫,安裝之後會提示successfully installed,告知是否安裝成功。

分詞原理:簡單來說,jieba庫是通過中文詞庫的方式來識別分詞的。它首先利用乙個中文詞庫,通過詞庫計算漢字之間構成詞語的關聯概率,所以通過計算漢字之間的概率,就可以形成分詞的結果。當然,除了jieba自帶的中文詞庫,使用者也可以向其中增加自定義的片語,從而使jieba的分詞更接近某些具體領域的使用。

(2).使用說明

jieba分詞有三種模式:精確模式、全模式和搜尋引擎模式。

簡單說,精確模式就是把一段文字精確的切分成若干個中文單詞,若干個中文單詞之間經過組合就精確的還原為之前的文字,其中不存在冗餘單詞。精確模式是最常用的分詞模式。

進一步jieba又提供了全模式,全模式是把一段中文文字中所有可能的詞語都掃瞄出來,可能有一段文字它可以切分成不同的模式或者有不同的角度來切分變成不同的詞語,那麼jieba在全模式下把這樣的不同的組合都挖掘出來,所以如果用全模式來進行分詞,分詞的資訊組合起來並不是精確的原有文字,會有很多的冗餘。

而搜尋引擎模式更加智慧型,它是在精確模式的基礎上對長詞進行再次切分,將長的詞語變成更短的詞語,進而適合搜尋引擎對短詞語的索引和搜尋,在一些特定場合用的比較多。

jieba庫提供的常用函式:

函式描述

jieba.lcut(s)

精確模式,能夠對乙個字串精確地返回分詞結果,而分詞的結果使用列表形式來組織。例如:

>>> import jieba

>>> jieba.lcut("中國是乙個偉大的國家")

building prefix dict from the default dictionary ...

loading model cost 2.489 seconds.

prefix dict has been built successfully.

['中國', '是', '乙個', '偉大', '的', '國家']

jieba.lcut(s,cut_all=true)

全模式,能夠返回乙個列表型別的分詞結果,但結果存在冗餘。例如:

>>> import jieba

>>> jieba.lcut("中國是乙個偉大的國家",cut_all=true)

['中國', '國是', '乙個', '偉大', '的', '國家']

jieba.lcut_for_search(s)

搜尋引擎模式,能夠返回乙個列表型別的分詞結果,也存在冗餘。例如:

>>> import jieba

>>> jieba.lcut_for_search("中華人民共和國是偉大的")

['中華', '華人', '人民', '共和', '共和國', '中華人民共和國', '是', '偉大', '的']

jieba.add_word(w)

向分詞詞庫新增新詞w

最重要的就是jieba.lcut(s)函式,完成精確的中文分詞。

python中文分詞工具 結巴分詞jieba

支援三種分詞模式 精確模式,試圖將句子最精確地切開,適合文字分析 全模式,把句子中所有的可以成詞的詞語都掃瞄出來,速度非常快,但是不能解決歧義 搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞。支援繁體分詞 支援自定義詞典 基於字首詞典實現高效的詞圖掃瞄,生成句子中...

python中文分詞庫 pynlpir

安裝 pip install pynlpir import pynlpir 載入包 pynlpir.open 載入nlpir的庫,這步是必須的 否則會出現 段錯誤 段轉儲 segment fault的錯誤 如果pynlpir.open 報錯 raise runtimeerror nlpir func...

Python之jieba中文分詞庫

jieba分詞是python中目前最受歡迎的中文分詞庫,他有許多特點,為了便於介紹直接引用官方介紹如下。支援繁體分詞 支援自定義詞典 mit 授權協議 jieba分詞的原理是利用乙個中文詞庫,確定漢字之間的關聯概率,然後組成片語,形成分詞結果,除了分詞,使用者還可以新增自定義的片語。我們先來看乙個最...