python實現文字分割

2021-09-26 03:53:18 字數 2914 閱讀 9768

文字分割是自然語言理解資料預處理中的重要步驟,本段程式實現的是用",。?!…」分割文章,並且分割子句單句成行

import re  

pattern = r"([,。?!…]+)" #正則匹配模式,用+表示至少乙個字元

flags = [",","。","?","!","…","……"]

sentence_txt =

with open("./test.txt","r",encoding="utf-8") as reader_file:

for line in reader_file:#一行就是一篇文章

spilt_list = re.split(pattern=pattern, string=line)

segment = ""

for segment_i in spilt_list:

segment += segment_i

if segment_i in flags :

#去除分割子句中的空格,\n,\t等符號,並加上"\r"回車符換行

segment = ""

with open("./spilt.txt","w",encoding="utf-8") as writer_file:

writer_file.writelines(sentence_txt)

print(sentence_txt.__len__())

測試文字

我叫瓊八蛋,我已經畢業很多年了,至於你要問我畢業的大學的話,非常抱歉,我很不樂意說,因為我的大學是非常神聖的,向別人說的時候我都會忍住。 以前在小學的時候,很多人都會問我:呃,蛋啊,你怎麼會取窮八蛋這個名字。以前還小,我都很老實的告訴他們:是我爸爸取的。 但是在我長大了以後,特別是我大學畢業以後,居然還有美女會我這麼無知的問題:蛋蛋,誰給你取窮八蛋這麼醜的名字! 靠!你鄙視我就好了,居然還敢鄙視我的名字,凡是遇到這種情況,我通常都會回答他:老子姓瓊,老子有八個蛋,要是有九個蛋老子就取窮九蛋了! 當然我永遠不會告訴他們真相,那就是我老媽在我滿月之前就只吃了九個雞蛋的事實。儘管有無數的人問過我這個問題,但是我還是守身如玉……呃……不,是守口如瓶。 儘管大學畢業了這麼多年,我的收入一直不高,個人覺得這肯定和我畢業的學校有關,畢竟開辦了數千年的大學,多少可能有些人滿為患的隱患。 這天我再一次的來到了鎮上,滿街都是香噴噴的味道,各種小吃,實在是美味極了。對,就是這種香味,閉著眼睛我都可以聞到這種香味,我閉著眼睛向前走去。儘管大街上人滿為患,我還是找到了它,我都不用睜開眼睛,就可以咬上去! 「哎呀,你這個色鬼,光天化日之下竟然就敢親我」!就在準備用餐的時候,居然有乙個女人大叫起色鬼來。「哼!色鬼在**,光天化日之下,成何體統」! 我是個有正義感的人,面對這樣的事情,我不可能不管,於是我睜開了眼睛。「是誰,到底是誰這麼無恥,立刻出來,我要為這位美女主持公道」! 在這時候,我發現了乙個問題:為什麼這麼多人轉過身來看著我?眼前的妹子是怎麼回事,居然用哀怨的眼神看著我!哦,不對,應該是憤怒的眼神。 我知道,這或許又是我多管閒事了,說不定是碰瓷的。「好了,好了,是我多管閒事,我不管了,你們繼續」!
分割結果

我叫瓊八蛋,

我已經畢業很多年了,

至於你要問我畢業的大學的話,

非常抱歉,

我很不樂意說,

因為我的大學是非常神聖的,

向別人說的時候我都會忍住。

以前在小學的時候,

很多人都會問我:呃,

蛋啊,你怎麼會取窮八蛋這個名字。

以前還小,

我都很老實的告訴他們:是我爸爸取的。

但是在我長大了以後,

特別是我大學畢業以後,

居然還有美女會我這麼無知的問題:蛋蛋,

誰給你取窮八蛋這麼醜的名字!

靠!你鄙視我就好了,

居然還敢鄙視我的名字,

凡是遇到這種情況,

我通常都會回答他:老子姓瓊,

老子有八個蛋,

要是有九個蛋老子就取窮九蛋了!

當然我永遠不會告訴他們真相,

那就是我老媽在我滿月之前就只吃了九個雞蛋的事實。

儘管有無數的人問過我這個問題,

但是我還是守身如玉……

呃……不,

是守口如瓶。

儘管大學畢業了這麼多年,

我的收入一直不高,

個人覺得這肯定和我畢業的學校有關,

畢竟開辦了數千年的大學,

多少可能有些人滿為患的隱患。

這天我再一次的來到了鎮上,

滿街都是香噴噴的味道,

各種小吃,

實在是美味極了。

對,就是這種香味,

閉著眼睛我都可以聞到這種香味,

我閉著眼睛向前走去。

儘管大街上人滿為患,

我還是找到了它,

我都不用睜開眼睛,

就可以咬上去!

「哎呀,

你這個色鬼,

光天化日之下竟然就敢親我」!

就在準備用餐的時候,

居然有乙個女人大叫起色鬼來。

「哼!色鬼在**,

光天化日之下,

成何體統」!

我是個有正義感的人,

面對這樣的事情,

我不可能不管,

於是我睜開了眼睛。

「是誰,

到底是誰這麼無恥,

立刻出來,

我要為這位美女主持公道」!

在這時候,

我發現了乙個問題:為什麼這麼多人轉過身來看著我?

眼前的妹子是怎麼回事,

居然用哀怨的眼神看著我!

哦,不對,

應該是憤怒的眼神。

我知道,

這或許又是我多管閒事了,

說不定是碰瓷的。

「好了,

好了,是我多管閒事,

我不管了,

你們繼續」!

python,文字分析

記得將當前目錄設定為檔案目錄 spyder編譯器的右上角,本人用spyder filename input 請輸入你的檔名 file open filename txt try for eachline in file print eachline except print 開啟檔案出錯 final...

python實現中文文字分句

對於英文文字分句比較簡單,只要根據終結符 劃分就好,中文文字分句看似很簡單,但是實現時會遇到很多麻煩,尤其是處理社交 資料時,會遇到文字格式不規範等問題。下面 針對一段一段的短文本組成了文件分句 import re def cut sent infile,outfile cutlineflag 本文...

Android實現文字分享

x s 代表第幾個位置的字串 send note choose 分享便簽 使用時 string str getstring r.string.send note,firststr,secondstr,thirdstr intent i new intent intent.action send i....