利用Jieba對txt進行分詞操作並儲存在資料庫中

2022-09-06 10:18:11 字數 2365 閱讀 9912

前提:已經安裝好jieba和pymysql

jieba庫的安裝與使用

pymysql的安裝與使用

1、建立python專案

idea怎麼建立python專案

2、pom.xml中加入依賴

org.pythongroupid>

jython-standaloneartifactid>

2.7.0version>

dependency>

dependencies>

3、建立data資料夾放入需要進行操作的txt

4、partition.py

import jieba

import os

import pymysql

txtpath = 'e:\\jetbrains\\hot word cloud\\partition\\data\\'

txttype = 'txt'

txtlists = os.listdir(txtpath)

for txt in txtlists:

f= open(txtpath+txt,encoding='utf-8')

t =f.read()

words = jieba.lcut(t) # 使用精確模式對文字進行分詞

counts = {} # 通過鍵值對的形式儲存詞語及其出現的次數

for word in words:

if len(word) == 1: # 單個詞語不計算在內

continue

if word.isdigit():

continue

else:

counts[word] = counts.get(word, 0) + 1 # 遍歷所有詞語,每出現一次其對應的值加 1

items = list(counts.items())#將鍵值對轉換成列表

items.sort(key=lambda x: x[1], reverse=true) # 根據詞語出現的次數進行從大到小排序

print('*********'+txt+'*********')

print(len(words))

name = f''.__str__()

str = "."

tablename = name[:name.index(str)]

# for i in range(20):

# word,count = items[i]

# print(word,count)

#建立資料庫連線

db_conn=pymysql.connect(host="localhost",user="root",password="111",db="hotwordcloud",charset="utf8")

#建立游標物件

cur=db_conn.cursor();

#刪除已有表

#建立資料表

sql = """

create table `%s`(

name char(255),

value char(255))

"""%(tablename)

try:

cur.execute(sql)

db_conn.commit()

print("建立表結構成功")

except exception as err:

print("sql語句執行錯誤",err)

db_conn.rollback()

#執行sql語句

for i in range(len(items)):

word,count = items[i]

data=(word,count)

# try:

cur.execute("insert into `%s`" %(tablename) + "values('%s','%s')" % (data))

db_conn.commit()

# except exception as err:

# print("sql語句執行錯誤",err)

print("插入資料成功")

db_conn.close()

執行程式即可在資料庫中建立對應的表,並將分詞結果存入表

jieba 利用jieba分詞

目錄 三種分詞模式 新增自定義詞典進行分詞 jieba提供了三種分詞模式,分別是全模式,精確模式和搜尋引擎模式。全模式下會將所有可能的詞語都進行分詞,精確模式下會盡可能的將句子精確切開,搜尋引擎模式實在精確模式的基礎上,對長詞再進行劃分,提高分詞的召回率。使用cut和cut for search即可...

合併txt檔案,並使用jieba分詞

將根目錄下,各個類別檔案內所有txt檔案分詞 去除停用詞後集合為乙個txt檔案 coding utf 8 import os import jieba 遍歷指定目錄,顯示目錄下的所有檔名 defeachfile filepath fr open stopwords.txt r 停用詞檔案在當前工作目...

利用jieba分詞分析小說一

人物名字的txt檔案。中文停用詞txt檔案。安裝好jieba庫。用jieba.cut 完成分詞後統計各人物的出場次數.import jieba import pickle import jieba.analyse names all names sentence 用來儲存分詞結果 text path...