Python學習(中文分詞和wordcloud)

2021-10-01 11:18:19 字數 774 閱讀 1064

花了兩個月學習python程式設計和複習h5css3

已經實現爬蟲和資料匯入,現在還剩兩個階段

今天在嘗試提取關鍵字和生成詞云

使用了jieba 和 wordcloud模組,但還未掌握停用字、並且分詞不準確。

使用wordcloud模組時出現小問題但也解決了到處,中字型出現方塊,原因是我字型設定錯誤,這個時候我只能引用系統自帶的字型。

解決方案:https

原始碼檢視:

"""

測試中文分詞

"""import jieba

import wordcloud

text1 = jieba.cut_for_search(

"**-七毛錢》、《航船中的文明》、《白種人-上帝的驕子》、《阿河》、《"

"哀韋傑三君》、《旅行雜記》等直接從現實生活取材,以夾敘夾議手法抨擊黑暗"

"社會的名篇;又如《背影》、《槳聲燈影裡的秦淮河》、《綠》、《荷塘月色》"

"、《月朦朧,鳥朦朧,簾捲海棠紅》、《白水漈》等情景交融、充滿詩情畫意而"

"膾炙人口的佳作,代表了他的散文藝術的最高成就。"

)w = wordcloud.wordcloud(width=

1000

)w.generate(

" ".join(text1)

)w.to_file(

"c:\\users\\s1999\\desktop\\computerlanguage.png"

)

python中文分詞 結巴分詞

中文分詞是中文文字處理的乙個基礎性工作,結巴分詞利用進行中文分詞。其基本實現原理有三點 基於trie樹結構實現高效的詞圖掃瞄,生成句子中漢字所有可能成詞情況所構成的有向無環圖 dag 採用了動態規劃查詢最大概率路徑,找出基於詞頻的最大切分組合 對於未登入詞,採用了基於漢字成詞能力的hmm模型,使用了...

python 中文分詞

英文單詞之間是以空格作為自然分界符的,而漢語是以字為基本的書寫單位,詞語之間沒有明顯的區分標記,因此,中文詞語分析是中文資訊處理的基礎與關鍵。分詞演算法可分為三大類 基於字典 詞庫匹配的分詞方法 基於詞頻度統計的分詞方法和基於知識理解的分詞方法。在基於字典 詞庫匹配的分詞方法中,又分為正向最大匹配 ...

英文分詞和中文分詞

由於英語的基本組成單位就是詞,所以相對來說簡單很多。大致分為三步 3s 根據空格拆分單詞 split 排除停止詞 stop word 提取詞幹 stemming 1 根據空格拆分單詞 這一步是是最簡單的一步,英語的句子基本上就是由標點符號 空格和詞構成,那麼只要根據空格和標點符號將詞語分割成陣列即可...