Python提取中文字元

2021-09-10 02:46:14 字數 1313 閱讀 6399

寫這個jupyter的原因是好幾次自己爬完新聞之後,發現中間有些是html標籤**或者其他多餘的英文本元,自己也不想保留,那麼這時候乙個暴力簡單的方法就是使用 unicode 範圍 \u4e00 - \u9fff 來判別漢字

unicode 分配給漢字(中日韓越統一表意文字)的範圍為 4e00-9fff

(目前 unicode 6.3 的標準已定義到 9fcc )

# 判斷字元是否全是中文

def ishan(text):

# for python 3.x

# sample: ishan('一') == true, ishan('我&&你') == false

return all('\u4e00' <= char <= '\u9fff' for char in text)

ishan("asas112中國")
false
# 提取中文字元

import re

def extract_chinese(txt):

pattern = re.compile("[\u4e00-\u9fa5]")

return "".join(pattern.findall(txt))

extract_chinese("任命的。

3g資本成立於2023年,是")

'任命的資本成立於年是'
還有乙個是過濾html標籤的強大工具

htmlparser

from html.parser import htmlparser

def strip_tags(html):

"""python中過濾html標籤的函式

>>> str_text=strip_tags("hello")

>>> print str_text

hello

"""html = html.strip()

html = html.strip("\n")

result =

parser = htmlparser()

parser.feed(html)

parser.close()

result=''.join(result)

result = result.replace("\n", "")

return result

strip_tags("hello")
'hello'

python提取中文字元 Python提取中文字元

寫這個jupyter的原因是好幾次自己爬完新聞之後,發現中間有些是html標籤 或者其他多餘的英文本元,自己也不想保留,那麼這時候乙個暴力簡單的方法就是使用 unicode 範圍 u4e00 u9fff 來判別漢字 unicode 分配給漢字 中日韓越統一表意文字 的範圍為 4e00 9fff 目前...

python查詢中文字元

filename seek.py import unicodedata import sys import os class seek 功能 查詢中文,並替換成指定字元或字串 使用方法 python指令碼用法 引數說明 d 檔案目錄 絕對或相對路徑 預設為指令碼所在目錄 t 檔案型別 檔名字尾,如....

python中文字元擷取亂碼

python學習中 python中關於中文字串擷取的問題 中文字元擷取亂碼 在python中乙個中文字元佔三個英文本元,看以下 print str 0 6 擷取啤酒兩個中文字元,需要從0開始截到6 print str 0 5 輸出 啤酒啤 就會出現亂碼 usr bin python coding u...