前提:已經安裝好jieba和pymysql
jieba庫的安裝與使用
pymysql的安裝與使用
1、建立python專案
idea怎麼建立python專案
2、pom.xml中加入依賴
org.pythongroupid>
jython-standaloneartifactid>
2.7.0version>
dependency>
dependencies>
3、建立data資料夾放入需要進行操作的txt
4、partition.py
import jieba
import os
import pymysql
txtpath = 'e:\\jetbrains\\hot word cloud\\partition\\data\\'
txttype = 'txt'
txtlists = os.listdir(txtpath)
for txt in txtlists:
f= open(txtpath+txt,encoding='utf-8')
t =f.read()
words = jieba.lcut(t) # 使用精確模式對文字進行分詞
counts = {} # 通過鍵值對的形式儲存詞語及其出現的次數
for word in words:
if len(word) == 1: # 單個詞語不計算在內
continue
if word.isdigit():
continue
else:
counts[word] = counts.get(word, 0) + 1 # 遍歷所有詞語,每出現一次其對應的值加 1
items = list(counts.items())#將鍵值對轉換成列表
items.sort(key=lambda x: x[1], reverse=true) # 根據詞語出現的次數進行從大到小排序
print('*********'+txt+'*********')
print(len(words))
name = f''.__str__()
str = "."
tablename = name[:name.index(str)]
# for i in range(20):
# word,count = items[i]
# print(word,count)
#建立資料庫連線
db_conn=pymysql.connect(host="localhost",user="root",password="111",db="hotwordcloud",charset="utf8")
#建立游標物件
cur=db_conn.cursor();
#刪除已有表
#建立資料表
sql = """
create table `%s`(
name char(255),
value char(255))
"""%(tablename)
try:
cur.execute(sql)
db_conn.commit()
print("建立表結構成功")
except exception as err:
print("sql語句執行錯誤",err)
db_conn.rollback()
#執行sql語句
for i in range(len(items)):
word,count = items[i]
data=(word,count)
# try:
cur.execute("insert into `%s`" %(tablename) + "values('%s','%s')" % (data))
db_conn.commit()
# except exception as err:
# print("sql語句執行錯誤",err)
print("插入資料成功")
db_conn.close()
執行程式即可在資料庫中建立對應的表,並將分詞結果存入表 jieba 利用jieba分詞
目錄 三種分詞模式 新增自定義詞典進行分詞 jieba提供了三種分詞模式,分別是全模式,精確模式和搜尋引擎模式。全模式下會將所有可能的詞語都進行分詞,精確模式下會盡可能的將句子精確切開,搜尋引擎模式實在精確模式的基礎上,對長詞再進行劃分,提高分詞的召回率。使用cut和cut for search即可...
合併txt檔案,並使用jieba分詞
將根目錄下,各個類別檔案內所有txt檔案分詞 去除停用詞後集合為乙個txt檔案 coding utf 8 import os import jieba 遍歷指定目錄,顯示目錄下的所有檔名 defeachfile filepath fr open stopwords.txt r 停用詞檔案在當前工作目...
利用jieba分詞分析小說一
人物名字的txt檔案。中文停用詞txt檔案。安裝好jieba庫。用jieba.cut 完成分詞後統計各人物的出場次數.import jieba import pickle import jieba.analyse names all names sentence 用來儲存分詞結果 text path...