python中jieba庫的介紹和應用

2022-05-28 08:15:10 字數 1907 閱讀 6230

一、安裝環境

window + python

二、安裝方式

在電腦命令符(cmd)中直接寫進下面的語句:pip install jieba    即可

三、jieba庫分詞的基本原理

1、利用中文詞庫,分析漢字與漢字之間的關聯機率

2、還有分析漢字片語的關聯機率

3、還可以根據使用者自定義的片語進行分析

四、jieba庫三種模式和對應的三個函式

精確模式: 把文字精確的切分開,不存在冗餘單詞   (就是切分開之後乙個不剩的精確組合) 

全模式: 把文字中所有可能的詞語都掃瞄出來,有冗餘

即: 可能有乙個文字,可以從不同的角度來切分,變成不同的詞語。在全模式下把不同的詞語都挖掘出來

搜尋引擎模式:在精確模式基礎上,對長詞語再次切分

函式對應模式

lcut(s)

精確模式,沒有多餘

lcut(s,cut_all=ture)

全模式,有多餘,長片語

lcut_for_search(s)

搜尋引擎模式,有多餘,長片語

例如:

以上就是jieba庫的一些基本的知識。

五、jieba庫詞頻統計例項

1、先把文章存為記事本的txt檔案

2、利用結巴庫

**如下:

1

import

jieba

2 txt = open("

jiebatxt.txt

","r

", encoding = '

gbk').read() #

讀取已存好的txt文件

3 words = jieba.lcut(txt) #

進行分詞

4 counts ={}

5for word in

words:

6if len(word)== 1: #

去掉標點字元和其它單字元

7continue

8else

:9 counts[word] = counts.get(word, 0) + 1 #

計數10 items = list(counts.items()) #

把物件物件轉化為列表形式,利於下面操作

1112

#sort() 函式用於對原列表進行排序,如果指定引數,則使用比較函式指定的比較函式13#

reverse 排序規則,reverse = true 降序, reverse = false 公升序(預設)14#

key 是用來比較的引數

1516 items.sort(key=lambda x: x[1], reverse =true)

17for i in range(10):

18 word, count=items[i]

19print("

".format(word, count))

得出結果:

可以先看效果:

python中jieba庫的使用

英語中我們可以通過.split 對字串進行分割,從而獲取到單詞的列表。比如如下 對哈姆雷特中前10英文單詞頻率進行了統計排序 calhamletv1.py def gettext txt open word frequency hamlet.txt r read txt txt.lower for ...

mysql呼叫jieba庫 jieba庫的使用

jieba是優秀的中文分詞第三方庫 jieba有3種模式 1.精確模式,返回乙個列表型別的分詞結果 jieba.lcut 中國是乙個偉大的國家 中國 是 乙個 偉大 的 國家 2.全模式,返回乙個列表型別的分詞結果,存在冗餘 jieba.lcut 中國是乙個偉大的國家 cut all true 中國...

python庫 jieba 中文分詞

import jieba 精確模式,試圖將句子最精確地切開,適合文字分析 全模式,把句子中所有的可以成詞的詞語都掃瞄出來,速度非常快,但是不能解決歧義 搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞。cut sentence 需要分詞的字串 cut all f 是...