Python生成詞云的製作

現成的詞云製作工具也很多: 1.wordle是乙個用於從文字生成詞雲圖而提供的遊戲工具. 3.tagul是乙個web服務,同樣可以建立華麗的詞云. 4.tagcrowd還可以輸入web的url,直接生成某個網頁的詞云.

詞云的本質是對文字中的詞進行詞云統計，根據出現頻率的多少來按比例展示大小.

1.對文字資料進行分詞，也是眾多nlp文字處理的第一步，對於wordcloud中的process_text（）方法，主要是停詞的處理.

2.計算每個詞在文字中出現的頻率，生成乙個雜湊表。詞頻計算相當於各種分布式計算平台的第一案例wordcount，和各種語言的hello world 程式具有相同的地位了，呵呵。

3.根據詞頻的數值按比例生成乙個的布局，類integraloccupancymap是該詞雲的演算法所在，是詞云的資料視覺化方式的核心。

4.將詞按對應的詞頻在詞云布局圖上生成，核心方法是generate_from_frequencies,不論是generate（）還是generate_from_text（）都最終到generate_from_frequencies

5.完成詞云上各詞的著色,預設是隨機著色

* connect: 目標是從各種各樣資料來源選擇資料，資料來源會提供apis,輸入格式,資料採集的速率,和提供者的限制. * correct: 聚焦於資料轉移以便於進一步處理，同時保證維護資料的質量和一致性 * collect: 資料儲存在哪，用什麼格式，方便後面階段的組裝和消費 * compose: 集中關注如何對已採集的各種資料集的混搭, 豐富這些資訊能夠構建乙個引入入勝的資料驅動產品。 * consume: 關注資料的使用、渲染以及如何使正確的資料在正確的時間達到正確的效果。 * control: 這是隨著資料、組織、參與者的增長，需要的第六個附加步驟，它保證了資料的管控。

關於分詞的庫關於詞云的庫

首先先安裝wordcloud和jieba

pip install wordcloud pip install jieba

python核心**
import matplotlib.pyplot as plt
from wordcloud import wordcloud
import jieba
text_from_file_with_apath =open("/users/vander/desktop/dada",encoding="utf-8").read()
wordlist_after_jieba =jieba.cut(text_from_file_with_apath,cut_all=true)
wl_space_split =" "
.join(wordlist_after_jieba)
my_wordcloud =wordcloud(font_path="/library/fonts/songti.ttc").generate(wl_space_split)
plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()

解析: 1-3行分別匯入了畫圖的庫,詞云生成庫和jieba的分詞庫. 4行是讀取本地的檔案. 5-6行使用jieba進行分詞,並對分詞的結果以空格分隔開. 7行對分詞後的文字生成詞云. 8-10行用pyplot展示詞雲圖.

thank

Python生成詞云的製作

python 詞云製作

Python 生成詞云

python 生成詞云

Python生成詞云的製作

python 詞云製作

Python 生成詞云

python 生成詞云

相關推薦