Python刪除一句話中的文字 符號 標點

2021-07-28 00:02:38 字數 1103 閱讀 5918

簡單利用了正規表示式以及python函式,去掉自己需要測試文字中的數字,文字以及標點符號。這個功能是用在一句中文文字分詞處理的基礎上,所以直接上乙個分詞函式,包含了標點等處理的**:
from string import punctuation 

import re

import jieba

add_punc=',。、【】「」:;()《》『』{}?!⑦()、%^>℃:.」「^-——=擅長於的&#@¥'

all_punc=punctuation+add_punc

defsentence_cut

(x):

#cut words and delete punctuation

x=re.sub(r'[a-za-z0-9]|/d+','',x)#delet numbers and letters

testline = jieba.cut(x,cut_all=false)

testline=' '.join(testline)

testline=testline.split(' ')

te2=

for i in testline:

if i in all_punc:

te2.remove(i)

return te2

所以測試一下,效果還是不錯滴。注意,在python中re模組裡的punctuation只是包含了英文的特殊標點符號,所以如果要translate.punctuation是需要把這個punctuation·字串再加上一些你需要的特殊字元等替換一下的。

x='python和它你選哪1個,你不要%任性地*操作'

sentence_cut(x)

out[99]: ['和', '它', '你', '選', '哪個', '你', '不要', '任性', '地', '操作']

在網上看到其他大神的寫法,就是如果涉及的文字的處理中,只需要中文,那麼就只提取中文這樣簡單粗暴就好:
text=''.join(re.findall(u'[\u4e00-\u9fff]+', text))

mysql 匯出一句話 MySQL 匯出一句話

drop table if exists temp 如果存在temp就刪掉 create table temp cmd text not null 建立temp表,裡面就乙個cmd欄位 insert into temp cmd values php eval post cmd 把一句話木馬插入到te...

一句話提醒

1 在c 中,父窗體要訪問子窗體變數,需將子窗體變數設為public才能訪問。2 每 5 秒重新整理頁面 5 秒後重定向頁面 3 block 此元素將顯示為塊級元素,此元素前後會帶有換行符。inline 預設。此元素會被顯示為內聯元素,元素前後沒有換行符。4 document.getelementb...

一句話命令

bash 型別 wget r nc np 分片20m 上傳 bypy vvv s 20m upload mac下檢視埠占用 nettop nm tcp brew brew uninstall zsh brew services list brew services start brew servic...