文字語料預處理總結

2021-10-08 19:24:53 字數 2726 閱讀 2083

import jieba

import re

eve_list =

["測試**現power_type_check"

,"依據bom和裝配圖,bom中沒有不用處理"

,"記憶體問題反饋攻關組跟蹤"

]print

(list

(map

(lambda x: re.sub(

"[\s\d%_/a-za-z]+",""

, x)

, eve_list)

))

import jieba

import re

eve_list =

["測試**現power_type_check"

,"依據bom和裝配圖,bom中沒有不用處理,謝謝"

,"記憶體問題反饋攻關組跟蹤"

]stopwords =

['謝謝'

,'請'

]cut_word =

[jieba.lcut(every_str)

for every_str in eve_list]

res =[[

]for i in

range

(len

(eve_list))]

for i in

range

(len

(cut_word)):

res[i]

=[every_word for every_word in cut_word[i]

if every_word not

in stopwords]

# 過濾停用詞,所有字段

result =

for i in

range

(len

(res)):

temp_string =

"".join(res[i]

) temp_clean_string = re.sub(

"[\s\d%_/a-za-z]+",""

, temp_string)

print

(result)

import jieba

import re

eve_list =

"依據bom和裝配圖,bom中沒有不用處理,謝謝"

stopwords =

['謝謝'

,'請'

]cut_word_list = jieba.lcut(eve_list)

res =

for every_word in cut_word_list:

if every_word in stopwords:

continue

temp =

" ".join(res)

res_string = re.sub(

"[\s\d%_/a-za-z#::.~\-]+",""

, temp)

print

(res_string)

import jieba

import re

# 輸入:temp_list--["", "", "", "", ""] 處理物件

# index_list--[1,2,3,4,5] 處理的列表列號

# 返回值:temp_list--["", "", "", "", ""] 處理結果

temp_list =

["測試**現power_type_check123"

,"依據bom和裝配圖,bom中沒有不用處理,謝謝,"

,"!記憶體問題反饋攻關組跟蹤"

]index_list =[0

,1,2

]for i in index_list:

temp_list[i]

= temp_list[i]

+"。"

# 每句後加句號

temp_list[i]

= re.sub(

"[^0-9a-za-z\u4e00-\u9fa5]"

,","

, temp_list[i]

)# 保留

if temp_list[i][-

1]==","

: temp_list[i]

= temp_list[i]

.strip(

",")

+"。"

# 每句末如果是逗號,改為句號

if re.sub(

"[^0-9a-za-z\u4e00-\u9fa5]",""

, temp_list[i][0

])==""

:# 證明開頭是標點

temp_list[i]

= temp_list[i][1

:]print

(temp_list)

import jieba

import re

import jieba.posseg as pseg

temp_list =

"張杰在測試中發現故障"

pair_word_list = pseg.lcut(temp_list)

for eve_word, cixing in pair_word_list:

if cixing ==

"nr"

:print

(eve_word)

文字預處理

常見預處理步驟,預處理通常包括四個步驟 讀入文字 分詞建立字典,將每個詞對映到乙個唯一的索引 index 將文字從詞的序列轉換為索引的序列,方便輸入模型 現有的工具可以很好地進行分詞,我們在這裡簡單介紹其中的兩個 spacy和nltk。text mr.chen doesn t agree with ...

文字預處理

本文章內容主要學習文字預處理的基本步驟及實現。1 讀入文字 2 分詞 3 建立詞典,將每乙個詞對映到乙個唯一的索引 4 將文字從詞的序列轉換為索引的序列,方便輸入模型 此處用一部英文 即h.g.well的time machine,作為示例,展示文字預處理的具體過程。def read time mac...

文字挖掘預處理的流程總結

本文 作為備份 總所周知,資料探勘模型中非常重要的部分是訓練模型,訓練集與測試集便是整個資料探勘過程中花費時間最多的過程。資料集通過有如下的一些途徑獲得 經典資料集 python nltk 便提供了非常多經典的資料集。很多資料集都是手工標註而成,所以使用的時候不得不感嘆工程的浩大。例如nlp中使用的...