jieba詞頻統計

2022-07-06 21:42:13 字數 1618 閱讀 3729

from

wordcloud import wordcloud

import matplotlib.pyplot

asplt

import numpy

asnp

from

pil import image

from jieba import *def replace(text,old,

new): #替換列表的字串

forchar

inold:

text = text.replace(char,new

)

return

text

def gettext(filename): #讀取檔案內容(utf-8

編碼格式)

#特殊符號和部分無意義的詞

sign = '''

!~·@¥……*「」『』\n(){}【】;:"

'「,」。-、?'''

with open('

{}.txt

'.format(filename), "

r") as

f: # 設定檔案物件

txt =f.read()

return replace(txt,sign,"")

def creat_word_cloud(filename): #將filename 檔案的詞語按出現次數輸出為詞雲圖

text =gettext(filename) #讀取檔案

wordlist =lcut(text) #jieba庫精確模式分詞

wl = '

'.join(wordlist) #生成新的字串

#設定詞雲圖

font = r'

c:\windows\fonts\simfang.ttf

'#設定字型路徑

wc =wordcloud(

background_color = '

black

', #背景顏色

max_words = 2000

, #設定最大顯示的詞云數

font_path =font, #設定字型形式(在本機系統中)

height = 1200

, #高度

width = 1600

, #寬度

max_font_size = 100

, #字型最大值

random_state = 250

, #配色方案的種類

)myword =wc.generate(wl) #生成詞云

#展示詞雲圖

plt.imshow(myword)

plt.axis(

'off')

plt.show()

#以原本的filename命名儲存詞雲圖

wc.to_file(

'{}.png

'.format(filename))

if __name__ == '

__main__':

creat_word_cloud(

'data

') #輸入檔名生成詞雲圖

jieba庫詞頻統計 運用jieba庫進行詞頻統計

python第三方庫jieba 中文分詞 一 概述 jieba是優秀的中文分詞第三方庫 中文文字需要通過分詞獲得單個的詞語 jieba是優秀的中文分詞第三方庫,需要額外安裝 jieba庫提供三種分詞模式,最簡單只需掌握乙個函式 二 安裝說明 全自動安裝 cmd命令列 pip install jieb...

jieba庫詞頻統計 jieba庫的使用與詞頻統計

1 詞頻統計 1 詞頻分析是對文章中重要詞彙出現的次數進行統計與分析,是文字 挖掘的重要手段。它是文獻計量學中傳統的和具有代表性的一種內容分析方法,基本原理是通過詞出現頻次多少的變化,來確定熱點及其變化趨勢。2 安裝jieba庫 安裝說明 對 python 2 3 均相容 全自動安裝 easy in...

使用jieba 中文分詞 庫統計詞頻

以統計水滸傳人物出場次數為例,列出出場次數最高的前三名。import jieba 引用中文分詞庫 txt open shuihu.txt r encoding gb18030 read 讀取檔案,注意編碼 excludes 通過不斷優化排除結果中的無用詞 words jieba.lcut txt 中...