小學生作文資料集處理(資料清洗)

2021-10-07 07:43:46 字數 2721 閱讀 4847

f1=

open

(r'c:\users\langgoubao\desktop\senior_data.txt'

,'r'

,encoding=

'utf-8'

)#開啟原始檔

f=open

(r'c:\users\langgoubao\desktop\senior.txt'

,'w'

,encoding=

'utf-8'

)#開啟寫入檔案

for line in

file

.readlines():

if line.split():

#過濾空行 (不是空行,開始處理)

因為轉碼問題,或者本身作文中存在的問題,有很多不規則符號,比如多個問號相連線,還存在一些英文的標點,需要將其轉化為中文的標點。

ch=

['???'

,'? ? ?'

,'??'

,'???'

,','

,'!'

,':'

,'?'

]for i in ch:

if i in line and i is

'???'

: line=line.replace(

'???',''

)#去除不規則轉碼的字元

if i in line and i is

'? ? ?'

: line=line.replace(

'? ? ?',''

)#去除不規則轉碼的字元

if i in line and i is

'??'

: line=line.replace(

'??'

,','

)#去除不規則轉碼的字元

if i in line and i is

'???'

: line=line.replace(

'???',''

)#去除不規則轉碼的字元

if i in line and i is

',':

line=line.replace(

',',

',')

#將英文標點轉化為中文標點

if i in line and i is

'!':

line=line.replace(

'!',

'!')

#將英文標點轉化為中文標點

if i in line and i is

':':

line=line.replace(

':',

':')

#將英文標點轉化為中文標點

if i in line and i is

'?':

line=line.replace(

'?',

'?')

#將英文標點轉化為中文標點

有一些作文中,小學生寫感嘆號十分口語化,寫感嘆號總是把多個感嘆號寫在一其,比如:今天真的好開心啊!!!!,這裡不能直接把多個感嘆號一起去掉,需要在迴圈中逐個刪除,只保留最後乙個。

#處理多個感嘆號的情況

while

'!!'

in line:

line=line.replace(

'!!'

,'!'

)#去除不規則轉碼的字元

#轉換英文雙引號為中文雙引號,都是成對出現

count =

1for i in line:

if i is

'"'and count%2==

1:#前引號

line=line.replace(

'"',

'「')

#將英文標點轉化為中文標點

count = count+

1#計數器遞增

if i is

'"'and count%2==

0:#後引號

line=line.replace(

'"',

'」')

#將英文標點轉化為中文標點

#解決編碼導致的錯誤,兩個標點連線在一起,只保留前乙個

c=["!"

,"?"

,"。"

]for k in c:

for p in c:

a=k+p

if a in line:

print

(line)

line=line.replace(a, k)

#將英文標點轉化為中文標點

print

(line)

line=line.lstrip(

)#去除開頭的空格

f.write(line)

f.close(

)f1.close(

)

經過上述步驟,得到如下的小學生資料

高年級:

低年級:

ps

小學生作文

今天,有在微博上頒發了一篇小 作文,作文標題是 文章出軌 作文中呈現 小三 找葷吃 等敏感詞彙,有從容無言地問 這孩子懂這些詞的意思嗎?記者得悉,該篇作文的作者是邳州某小學的一名五年級 據知戀人田密斯披露,這名男終身常額外歡快喜愛上彀,尤其是歡快喜愛瀏覽娛樂音訊。如今的孩子太早熟了。揚子晚報 孫雲曉...

小學生作文

今天,有在微博上頒發了一篇小 作文,作文標題是 文章出軌 作文中呈現 小三 找葷吃 等敏感詞彙,有從容無言地問 這孩子懂這些詞的意思嗎?記者得悉,該篇作文的作者是邳州某小學的一名五年級 據知戀人田密斯披露,這名男終身常額外歡快喜愛上彀,尤其是歡快喜愛瀏覽娛樂音訊。如今的孩子太早熟了。揚子晚報 孫雲曉...

小學生作文

今天,有在微博上頒發了一篇小 作文,作文標題是 文章出軌 作文中呈現 小三 找葷吃 等敏感詞彙,有從容無言地問 這孩子懂這些詞的意思嗎?記者得悉,該篇作文的作者是邳州某小學的一名五年級 據知戀人田密斯披露,這名男終身常額外歡快喜愛上彀,尤其是歡快喜愛瀏覽娛樂音訊。如今的孩子太早熟了。揚子晚報 孫雲曉...