jieba庫詞頻統計 運用jieba庫進行詞頻統計

2021-10-20 21:03:58 字數 2109 閱讀 6552

python第三方庫jieba(中文分詞)

一、概述

jieba是優秀的中文分詞第三方庫

- 中文文字需要通過分詞獲得單個的詞語

- jieba是優秀的中文分詞第三方庫,需要額外安裝

- jieba庫提供三種分詞模式,最簡單只需掌握乙個函式

二、安裝說明

全自動安裝:(cmd命令列)  pip install jieba

安裝成功顯示

三、特點 —— jieba分詞

1. 原理:jieba分詞依靠中文詞庫

- 利用乙個中文詞庫,確定中文字元之間的關聯概率

- 中文字元間概率大的組成片語,形成分詞結果

- 除了分詞,使用者還可以新增自定義的片語

2. 三種分詞模式:

精確模式:試圖將句子最精確地切開,不存在冗餘單詞,適合文字分析;

全模式:把句子中所有的可以成詞的詞語都掃瞄出來, 速度非常快,有冗餘,不能解決歧義;

搜尋引擎模式:在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞。

四、jieba庫常用函式

**示例

結果輸出:['中國', '是', '乙個', '偉大', '的', '國家']

2. jieba.lcut(s, cut_all=true) #全模式,返回乙個列表型別的分詞結果,存在冗餘

**示例

jieba.lcut("中國是乙個偉大的國家",cut_all=true)

結果輸出: ['中國', '國是', '乙個', '偉大', '的', '國家']

3. jieba.lcut_for_sear ch(s) #搜尋引擎模式,返回乙個列表型別的分詞結果,存在冗餘

**示例

jieba.lcut_for_search(「中華人民共和國是偉大的")

結果輸出:   ['中華', '華人', '人民', '共和', '共和國', '中華人民共 和國', '是', '偉大', '的']

4. jieba.add_word(w) #向分詞詞典增加新詞w

**示例

jieba.add_word("蟒蛇語言")

運用jieba庫進行詞頻統計

例項——  對西遊記第一回進行詞頻統計

**importjieba

path_txt= 'c:\\users\86136\desktop\西遊記.txt' #文件在電腦上所在位置

txt = open(path_txt,"r").read()

excludes=

words=jieba.lcut(txt)

counts={}for word inwords:

counts[word]= counts.get(word,0)+1

for word inexcludes:delcounts[word]

items=list(counts.items())

items.sort(key=lambda x:x[1],reverse =true)for i in range(15):

word, count=items[i]print("".format(word,count))

執行結果

利用jieba庫統計三國演義中任務的出場次數

mport jieba

txt= open("d:\\三國演義.txt", "r", encoding='utf-8').read()

words= jieba.lcut(txt) #使用精確模式對文字進行分詞

counts = {} #通過鍵值對的形式儲存詞語及其出現的次數

for word inwords:if len(word) == 1: #單個詞語不計算在內

continue

else:

counts[word]= counts.get(word, 0) + 1 #遍歷所有詞語,每出現一次其對應的值加 1

items= list(counts.items())#將鍵值對轉換成列表

items.sort(key=lambda x: x[1], reverse=true) #根據詞語出現的次數進行從大到小排序

for i in range(15):

word, count=items[i]print("".format(word, count))

jieba詞頻統計

from wordcloud import wordcloud import matplotlib.pyplot asplt import numpy asnp from pil import image from jieba import def replace text,old,new 替換列表...

jieba庫詞頻統計 jieba庫的使用與詞頻統計

1 詞頻統計 1 詞頻分析是對文章中重要詞彙出現的次數進行統計與分析,是文字 挖掘的重要手段。它是文獻計量學中傳統的和具有代表性的一種內容分析方法,基本原理是通過詞出現頻次多少的變化,來確定熱點及其變化趨勢。2 安裝jieba庫 安裝說明 對 python 2 3 均相容 全自動安裝 easy in...

使用jieba 中文分詞 庫統計詞頻

以統計水滸傳人物出場次數為例,列出出場次數最高的前三名。import jieba 引用中文分詞庫 txt open shuihu.txt r encoding gb18030 read 讀取檔案,注意編碼 excludes 通過不斷優化排除結果中的無用詞 words jieba.lcut txt 中...