利用Jieba對txt進行分詞操作並儲存在資料庫中

前提：已經安裝好jieba和pymysql

jieba庫的安裝與使用

pymysql的安裝與使用

1、建立python專案

idea怎麼建立python專案

2、pom.xml中加入依賴

org.pythongroupid>
jython-standaloneartifactid>
2.7.0version>
dependency>
dependencies>

3、建立data資料夾放入需要進行操作的txt

4、partition.py

import jieba
import os
import pymysql
txtpath = 'e:\\jetbrains\\hot word cloud\\partition\\data\\'
txttype = 'txt'
txtlists = os.listdir(txtpath)
for txt in txtlists:
f= open(txtpath+txt,encoding='utf-8')
t =f.read()
words = jieba.lcut(t) # 使用精確模式對文字進行分詞
counts = {} # 通過鍵值對的形式儲存詞語及其出現的次數
for word in words:
if len(word) == 1: # 單個詞語不計算在內
continue
if word.isdigit():
continue
else:
counts[word] = counts.get(word, 0) + 1 # 遍歷所有詞語，每出現一次其對應的值加 1
items = list(counts.items())#將鍵值對轉換成列表
items.sort(key=lambda x: x[1], reverse=true) # 根據詞語出現的次數進行從大到小排序
print('*********'+txt+'*********')
print(len(words))
name = f''.__str__()
str = "."
tablename = name[:name.index(str)]
# for i in range(20):
# word,count = items[i]
# print(word,count)
#建立資料庫連線
db_conn=pymysql.connect(host="localhost",user="root",password="111",db="hotwordcloud",charset="utf8")
#建立游標物件
cur=db_conn.cursor();
#刪除已有表
#建立資料表
sql = """
create table `%s`(
name char(255),
value char(255))
"""%(tablename)
try:
cur.execute(sql)
db_conn.commit()
print("建立表結構成功")
except exception as err:
print("sql語句執行錯誤",err)
db_conn.rollback()
#執行sql語句
for i in range(len(items)):
word,count = items[i]
data=(word,count)
# try:
cur.execute("insert into `%s`" %(tablename) + "values('%s','%s')" % (data))
db_conn.commit()
# except exception as err:
# print("sql語句執行錯誤",err)
print("插入資料成功")
db_conn.close()

執行程式即可在資料庫中建立對應的表，並將分詞結果存入表

jieba 利用jieba分詞

目錄三種分詞模式新增自定義詞典進行分詞 jieba提供了三種分詞模式，分別是全模式，精確模式和搜尋引擎模式。全模式下會將所有可能的詞語都進行分詞，精確模式下會盡可能的將句子精確切開，搜尋引擎模式實在精確模式的基礎上，對長詞再進行劃分，提高分詞的召回率。使用cut和cut for search即可...

合併txt檔案，並使用jieba分詞

將根目錄下，各個類別檔案內所有txt檔案分詞去除停用詞後集合為乙個txt檔案 coding utf 8 import os import jieba 遍歷指定目錄，顯示目錄下的所有檔名 defeachfile filepath fr open stopwords.txt r 停用詞檔案在當前工作目...

利用jieba分詞分析小說一

人物名字的txt檔案。中文停用詞txt檔案。安裝好jieba庫。用jieba.cut 完成分詞後統計各人物的出場次數.import jieba import pickle import jieba.analyse names all names sentence 用來儲存分詞結果 text path...

利用Jieba對txt進行分詞操作並儲存在資料庫中

jieba 利用jieba分詞

合併txt檔案，並使用jieba分詞

利用jieba分詞分析小說一

相關推薦