中文和英文的詞云生成

2022-07-10 03:12:11 字數 1425 閱讀 9039

1、中文分詞

from wordcloud import wordcloud

import jieba

import numpy as np

from pil import image

from matplotlib import colors

with open(r'ciyun2.txt','r',encoding='utf-8') as f:

data=f.read()

wordlist_jieba=jieba.lcut(data) #中文分詞

data=','.join(wordlist_jieba)

font=r'c:\windows\fonts\simli.ttf' #詞云字型選擇

all_words=

with open(r'chinesestopwords.txt','r',encoding='utf-8') as f1: #開啟停止詞文字,刪除生成詞云的文字中的不需要的詞

all_words=f1.readlines()

stopwords=[word.strip() for word in all_words]

stopwords.extend(['一點','一種','包括','第二個','講','特別','說']) #額外新增一些停止詞

color_list=['#ff0000','#a41a1a']#建立顏色陣列

colormap=colors.listedcolormap(color_list)#呼叫

py_mask=np.array(image.open('picture.png')) #詞云形狀

wc=wordcloud(scale=4,mask=py_mask,font_path=font,stopwords=stopwords,background_color='white',colormap=colormap) #其中scale越大,詞云的清晰度越高

wc.generate(data)

wc.to_file('ciyunone2(修改).jpg')

2、英文分詞(程式引數不再介紹,根據中文分詞可以理解)

詞云生成工具wordcloud中文顯示

wordcloud主要的使用就是下面三行 from wordcloud import wordcloud wc wordcloud font path font path,scale 1,collocations false background color white width 400,heig...

中文詞頻統計與詞云生成

中文詞頻統計 追風箏的人 txt 2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。pip install jieba import jieba jieba.lcut text 4.更新詞庫,加入所分析物件的專業詞彙。jieba.add word 天罡北斗陣 逐個新增 jieba.lo...

中文詞頻統計與詞云生成

中文詞頻統計 作業連線 2.從檔案讀取待分析文字。3.安裝並使用jieba進行中文分詞。pip install jieba import jieba jieba.lcut text 4.更新詞庫,加入所分析物件的專業詞彙。jieba.add word 天罡北斗陣 逐個新增 jieba.load us...