Python生成詞云的製作

2021-07-28 06:46:47 字數 1984 閱讀 5919

現成的詞云製作工具也很多:

1.wordle是乙個用於從文字生成詞雲圖而提供的遊戲工具.

3.tagul是乙個web服務,同樣可以建立華麗的詞云.

4.tagcrowd還可以輸入web的url,直接生成某個網頁的詞云.

詞云的本質是對文字中的詞進行詞云統計,根據出現頻率的多少來按比例展示大小.

1.對文字資料進行分詞,也是眾多nlp文字處理的第一步,對於wordcloud中的process_text()方法,主要是停詞的處理.

2.計算每個詞在文字中出現的頻率,生成乙個雜湊表。詞頻計算相當於各種分布式計算平台的第一案例wordcount, 和各種語言的hello world 程式具有相同的地位了,呵呵。

3.根據詞頻的數值按比例生成乙個的布局,類integraloccupancymap是該詞雲的演算法所在,是詞云的資料視覺化方式的核心。

4.將詞按對應的詞頻在詞云布局圖上生成,核心方法是generate_from_frequencies,不論是generate()還是generate_from_text()都最終到generate_from_frequencies

5.完成詞云上各詞的著色,預設是隨機著色

* connect: 目標是從各種各樣資料來源選擇資料,資料來源會提供apis,輸入格式,資料採集的速率,和提供者的限制.

* correct: 聚焦於資料轉移以便於進一步處理,同時保證維護資料的質量和一致性

* collect: 資料儲存在哪,用什麼格式,方便後面階段的組裝和消費

* compose: 集中關注如何對已採集的各種資料集的混搭, 豐富這些資訊能夠構建乙個引入入勝的資料驅動產品。

* consume: 關注資料的使用、渲染以及如何使正確的資料在正確的時間達到正確的效果。

* control: 這是隨著資料、組織、參與者的增長,需要的第六個附加步驟,它保證了資料的管控。

關於分詞的庫

關於詞云的庫

首先先安裝wordcloud和jieba

pip install wordcloud

pip install jieba

python核心**

import matplotlib.pyplot as plt

from wordcloud import wordcloud

import jieba

text_from_file_with_apath =open("/users/vander/desktop/dada",encoding="utf-8").read()

wordlist_after_jieba =jieba.cut(text_from_file_with_apath,cut_all=true)

wl_space_split =" "

.join(wordlist_after_jieba)

my_wordcloud =wordcloud(font_path="/library/fonts/songti.ttc").generate(wl_space_split)

plt.imshow(my_wordcloud)

plt.axis("off")

plt.show()

解析:

1-3行分別匯入了畫圖的庫,詞云生成庫和jieba的分詞庫.

4行是讀取本地的檔案.

5-6行使用jieba進行分詞,並對分詞的結果以空格分隔開.

7行對分詞後的文字生成詞云.

8-10行用pyplot展示詞雲圖.

thank

python 詞云製作

製作詞云需要兩個python核心類庫 準備乙個text文件,上面寫上要做的文字,以及一張作詞雲的背景圖 coding utf 8 import pil from os import path from pil import image import numpy as np import matplo...

Python 生成詞云

import matplotlib.pyplot as plt from wordcloud import wordcloud import jieba text from file with apath open python.txt encoding utf 8 read wordlist af...

python 生成詞云

coding utf 8 from wordcloud import wordcloud import matplotlib.pyplot as plt import jieba from pil import image import numpy as np 生成詞云 defcreate word...