python實現txt文字資料分類 中英文分類

2021-09-20 04:14:07 字數 1027 閱讀 2094

最近在做自然語言處理的資料預處理部分——實體詞,提取、抓取的資料集中包含中英文,那麼我們只需要英文,不需要中文,於是就寫了乙個簡單的指令碼實現txt文字資料分類。

原資料如下(為了寫這篇部落格特意只提取了資料的一部分):

**如下:

file_open = open(r'c:\users\administrator\desktop\words.txt', 'r', encoding='gbk')

lines = file_open.readlines()

a = set()

b = set()

for line in lines:

b.add(line)

for char in line:

if u'\u4e00' <= char <= u'\u9fff':

a.add(line)

else:

break

with open('c:/users/administrator/desktop/2.txt', 'w+') as f:

for stu in a:

print(stu)

f.write("".join(stu))

c = b - a

with open('c:/users/administrator/desktop/3.txt', 'w+') as t:

for stb in c:

print(stb)

t.write("".join(stb))

分類結果如下:

1、中文文字

2、英文文字

mysql匯入txt文字資料

按照mysql官方文件指示下 建立資料庫和表 mysql create database menagrie 然後建立表 1 mysql create table pet name varchar 20 owner varchar 20 2 species varchar 20 char 1 birt...

python處理文字資料

處理文字資料,主要是通過seris的str訪問。遇到nan時不做任何處理,保留結果為nan,遇到數字全部處理為nan。str是seris的方法,dataframe不能直接使用,但是通過索引選擇dataframe中的某一行或者某一列,結果為seris,然後就可以使用了。例如定義乙個seris和data...

C 實現把txt文字資料快速讀取到excel中

今天預實現一功能,將txt中的資料轉到excel表中,做為matlab的資料來源。蒐集一些c 操作excel的程式。步驟如下 乙個microsoft.office.interop.excel.dll 在專案中引用。編寫 如下 string path c date streamreader sr ne...