Python 中文去標點

2021-07-30 14:07:52 字數 429 閱讀 7301

老師讓把每一次寫東西遇到的問題都記錄下來,個人覺得很有用,就以此為第一篇博文吧⁄(⁄ ⁄•⁄ω⁄•⁄ ⁄)⁄

在寫k-means聚類時,對文字分詞處理遇到去標點的問題,之前一直使用的是

.translate(none, string.punctuation)

方法並不管用,最後參考

[(找到了解決辦法

from zhon.hanzi import punctuation

line='!今天寫了個爬蟲。、?'

print re.sub(ur"[%s]+" %punctuation, "", line.decode("utf-8"))

執行結果為

今天寫了個爬蟲
等我寫好了k-means,一定要好好上傳~

python中文標點轉英文標點

unicode有個normalize的過程,按照unicode標準,有c d kc kd四種,kc會將大部分的中文標點符號轉化為對應的英文,還會將全形字符轉化為相應的半形字元,比如 import unicodedata t u 中國,中文,標點符號!你好?t2 unicodedata.normali...

PHP去字串標點

在我們實際開發中,有時需要把前端提交來的字元去掉所有的標點,那麼我們只需要進行如下操作。keyword 好 好 學 習 p hp!keyword urlencode keyword 將關鍵字編碼 keyword preg replace 7e 60 21 40 23 24 25 5e 26 27 2...

如何使用python將中文標點轉為英文標點

1.unicode有個normalize的過程,按照unicode標準,有c d kc kd四種,kc會將大部分的中文標點符號轉化為對應的英文,還會將全形字符轉化為相應的半形字元,比如 import unicodedata t u 中國,中文,標點符號!你好?t2 unicodedata.norma...