使用詞云進行中文分詞後的視覺化

2021-09-14 03:05:19 字數 2487 閱讀 1205

詞云是我們在文字挖掘過程中常用的一種視覺化方法。對於中文來說,我們需要西安進行分詞,再生成詞云,以下先給出我用來生成詞云的這段話:

在研發團隊中,根據木桶原理,真正體現團隊技術能力的人是團隊中力量最弱的開發者。不怕神一樣的對手,就怕豬一樣的隊友,說的就是如此。

但是,打造精英團隊往往是個偽命題。對很多團隊而言,薪酬,待遇,福利等諸多侷限,使得我們很難與那些頂尖或準頂尖的公司競爭。我們往往是二三流的團隊來完成一流的事情。但是,人才是可以培養的,團隊也是可以轉變的。

如何轉變?除了前面談到的abc之外,就是團隊的新陳代謝了。在戰場上,乙個戰士的受傷往往意味著損失2~3個戰鬥力。在開發過程中,乙個人挖的坑,恐怕兩個人可以填乾淨就不錯了。勸退有可能是一種對雙方都好的結果。末位淘汰儘管有些殘忍,但往往是對雙方的負責。

引進高手的直接手段就是招聘了。當你向hr提招聘需求的時候,不要僅僅給出乙個jd,應該有更清楚的目標畫像,例如畢業於怎樣的院校,最好在哪些公司工作等等。這樣,hr的夥伴才能夠有的放矢,甚至通過獵頭完成定向招聘。

總之,研發管理要具備人才培養和人才引進的能力,一切的競爭,歸根到底都是人的競爭。

我們對這段文字建立詞云的**如下:

# -*- coding: utf-8 -*-

"""created on mon jan 28 17:32:00 2019

@author: chendile

"""import matplotlib.pyplot as plt

from wordcloud import wordcloud #詞云庫

from pil import image

import numpy as np

import jieba #用於中文分詞的庫

font = "c:/windows/fonts/msjhbd.ttc"

abel_mask = np.array(image.open("e:/筆記集合/text-mining/詞云**及/timg.jpg"))

text_from_file_with_apath = open('e:/筆記集合/text-mining/詞云**及/ciyun.txt','r',encoding='utf8').read()

print(text_from_file_with_apath)

wordlist_after_jieba = jieba.cut(text_from_file_with_apath, cut_all = true)

wl_space_split = " ".join(wordlist_after_jieba)

print(wl_space_split)

my_wordcloud = wordcloud(collocations=false, font_path=font, max_font_size=70,

max_words=1000, margin=5,background_color="pink", mask=abel_mask,colormap='hot').generate(wl_space_split)

#wordcloud裡的引數設定是重中之重了,這個在wordcloud的官方文件上有很詳細的解釋

#color_func=lambda *args, **kwargs: "lightgreen",這個屬性優先順序比colormap要高,可把單詞都設定為同色

#這個引數設定為0時,詞的大小只和詞頻排序有關係,設定為1時,字型大小將是其詞頻的兩倍,relative_scaling=1

#colormap可以設定不同的詞對映的顏色,wordcloud會為每個單詞隨機生成乙個數字,根據colormap對映為顏色,然後顯示,但這個不能根據詞頻大小來對映,colormap和matlab中的一致

print(my_wordcloud)

plt.imshow(my_wordcloud)

plt.axis("off")

plt.show()

下面是通過改變wordcloud的引數畫出的幾種不同的詞云:

純色詞云

colormap設定為hot的詞云:

colormap設定為jet的詞云:

colormap設定為spring的詞云:

考慮詞頻數值而不僅考慮詞頻排序的詞云:

使用pymmseg進行中文分詞

python分詞模組,基於mmseg演算法編寫,核心 c 提供python介面。code example coding utf 8 from pymmseg import mmseg import os import sys def cws pymmseg shortdeslist,wordlist...

使用python jieba庫進行中文分詞

jieba 結巴 中文分詞 做最好的 python 中文分詞元件 jieba chinese for to stutter chinese text segmentation built to be the best python chinese word segmentation module.功...

python使用jieba庫進行中文分詞

很簡單的乙個實現,當初以為很複雜。把附錄的檔案貼上就行 coding utf 8 created on tue mar 5 14 29 02 2019 author psdz jieba庫是用來分詞的庫 import jieba import jieba.analyse 是用來進行計算機系統操作的庫...