文字資料視覺化 練習

2021-10-11 02:52:42 字數 2359 閱讀 3583

# -*- coding: utf-8 -*-

# matplotlib是乙個 python 的 2d數學繪相簿

# 安裝:pip install matplotlib

import matplotlib.pyplot as plt

# jieba中文分詞庫

# 安裝:pip install jieba

import jieba

# wordcloud詞云庫

# 安裝pip install wordcloud

from wordcloud import wordcloud

# 1.讀入txt文字資料

text = open(r'jay.txt', "r",encoding=

"utf-8"

).read(

)#print(text)

# 2.結巴中文分詞,生成字串,預設精確模式,如果不通過分詞,無法直接生成正確的中文詞云

cut_text = jieba.cut(text)

# print(type(cut_text))

# print(next(cut_text))

# print(next(cut_text))

# print(next(cut_text))

# 必須給個符號分隔開分詞結果來形成字串,否則不能繪製詞云

result =

" ".join(cut_text)

# print(result)

# 無自定義背景圖:需要指定生成詞雲圖的畫素大小,預設背景顏色為黑色,統一文字顏色:mode='rgba'和colormap='pink'

wc= wordcloud(

# 設定字型,不指定就會出現亂碼

font_path=r'.\simhei.ttf',

# 設定背景色

background_color=

'white',

# 設定背景寬

width=500,

# 設定背景高

height=350,

# 最大字型

max_font_size=50,

# 最小字型

min_font_size=10,

)# max_words=1000 ),mode='rgba',colormap='pink')

# 產生詞云

wc.generate(result)

# 儲存

wc.to_file(r"wordcloud.png"

)# 按照設定的畫素寬高度儲存繪製好的詞雲圖,比下面程式顯示更清晰

# 4.顯示

# 指定所繪圖名稱

plt.figure(

"jay"

)# 以的形式顯示詞云

plt.imshow(wc)

# 關閉影象座標系

plt.axis(

"off"

)plt.show(

)

jay.txt

從出生那年就飄著  童年的盪鞦韆 

隨記憶一直晃到現在  吹著前奏  望著天空

我想起花瓣  試著掉落  為你翹課的那一天

花落的那一天  教室的那一間  我怎麼看不見

消失的下雨天  我好想再淋一遍 周杰倫

沒想到  失去的勇氣我還留著 周杰倫

好想再問一遍  你會等待還是離開 周杰倫

颳風這天  我試過握著你手 周杰倫

但偏偏雨漸漸  大到我看你不見 周杰倫

還要多久  我才能在你身邊  等到放晴的那天 周杰倫

也許我會比較好一點  從前從前  有個人愛你很久 周杰倫

但偏偏風漸漸  把距離吹得好遠 周杰倫

好不容易  又能再多愛一天  但故事的最後 周杰倫

你好像還是說了拜拜  為你翹課的那一天 周杰倫

花落的那一天  教室的那一間  我怎麼看不見 周杰倫

消失的下雨天  我好想再淋一遍 周杰倫

沒想到  失去的勇氣我還留著  好想再問一遍 周杰倫

你會等待還是離開  颳風這天  我試過握著你手 周杰倫

但偏偏雨漸漸  大到我看你不見

還要多久  我才能在你身邊  等到放晴的那天 周杰倫

也許我會比較好一點  從前從前  有個人愛你很久

偏偏風漸漸  把距離吹得好遠 周杰倫

好不容易  又能再多愛一天  但故事的最後 周杰倫

你好像還是說了拜拜  颳風這天  我試過握著你手 周杰倫

但偏偏雨漸漸  大到我看你不見 周杰倫

還要多久  我才能夠在你身邊

等到放晴那天  也許我會比較好一點 周杰倫

從前從前  有個人愛你很久

但偏偏風漸漸  把距離吹得好遠 周杰倫

好不容易  又能再多愛一天

大資料視覺化(六)文字資料視覺化

在於利用視覺化技術刻畫文字和文件,將其中的資訊直觀的呈現。對文字的理解需求分為 詞彙級 語法級和語義級。詞彙級使用各類分詞演算法,而語法級使用一些句法分析演算法,語義級則使用主題抽取演算法。文字資料類別分為 單文字,文件集合,時序文字。文字視覺化的基本流程 原始文字 文字資訊挖掘 文字預處理 文字特...

視覺化文字資料 詞云

在r語言的包裡面,有乙個wordcloud的包,專門用來建立這種型別的圖形,它是由加州大學洛杉磯分校的專業統計學家ian fellows編寫的。下面用幾句簡單的r語言即可繪製出一張詞云 library wordcloud library tm library nlp getwd sms corpus...

文字資料視覺化中一些概念

詞云 詞云是乙個自動化的文字視覺化工具。詞云的特點 1 自動提取高頻詞 2 呈現高頻詞 3 字型大小體現單詞出現的次數。文字視覺化的重要意義 在於幫助使用者快速地完成大量文字閱讀和理解,並從中獲取重要的資訊。文字資料 比如 報紙 網頁等 應用場景 電子商務 社交計算 商業智慧型 使用者體驗 分析 公...