中文文字字符集分析過濾工具

2021-09-28 15:10:50 字數 2245 閱讀 6182

tag: chatset 字符集 過濾

搞煩了好多次了,就在想用什麼方法可能快速、方便地處理呢?於是想做乙個關於「字符集分析及過濾的工具」,就有了這個小工具。

我查詢了有關utf8字符集的資料,其實字符集存放是有一定規律的,當然這裡就涉及到什麼標準啊之類的很多內容,這裡不詳細展開。 如果能夠把各類的字元歸一下類,那麼就能夠把這些不可見的字元找出來了。這裡把utf8字符集分成了40類。

其中有幾類要特別說明一下:

其它更詳細的請見後文中的清單

utf-8字符集分析過濾工具 charsetfilter

版本: v 1.0.1

更新:xmxoxo 2019/10/14

工具說明:本工具把utf8字符集分成了40個子集,可對文字檔案中的字符集進行分析,

統計各類字元的總數以及出現的種類數。同時還可以方便地過濾或者保留的字元,

特別適合nlp等領域中對不可見字元的過濾分析等處理。

注: 被分析的文字檔案需要是utf8格式

分析文字字符集,輸出簡要資訊

python charsetfilter.py --file ./111.txt
分析文字字符集,輸出詳細資訊,詳細資訊會儲存到 ***_report.txt 檔案中

python charsetfilter.py --file ./111.txt --detail 1
分析文字字符集,按預設值過濾(過濾 「尚未識別 0」, 「控制字元 3」),並儲存過濾結果(自動命名)

python charsetfilter.py --file ./111.txt --filter 1
分析文字字符集,僅保留 1,2,36,39,並儲存過濾結果(自動命名為 ***_out.txt)

python charsetfilter.py --file ./111.txt --filter 1 --remain_charset 1 2 36 39
以下是使用的一些截圖:

字符集分析結果截圖

[外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接上傳(img-xocolju9-1571024581088)(

字符集分析詳細結果輸出檔案截圖(部分):

[外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接上傳(img-qa9s04tp-1571024581089)(

'尚未識別',  #0 除以下標識的範圍之外的字元,基本可認為是沒有用的字元

'系統字元', #1 包括換行,製表,回車等

'英文半形', #2 包含數字,字母,符號,空格

'控制字元', #3 可刪除,會影響文字處理

'擴充套件半形', #4 一些半形符號

'韓文本元', #5

'傣文字元', #6

'新傣文字', #7

'標點字元', #8

'上標下標', #9

'字母符號', #10

'數字符號', #11

'箭頭字元', #12

'數學符號', #13 全形數學符號

'工程符號', #14

'控制圖符', #15

'識別符號', #16

'序號字元', #17 帶圓圈的序號字元

'製表字元', #18

'方塊元素', #19

'雜項符號', #20

'裝飾符號', #21

'盲文符號', #22

'部首補充', #23

'康熙部首', #24

'漢字結構', #26

'標點符號', #27

'日文字元', #28

'韓文本母', #29

'筆劃字元', #30

'日文拼音', #31

'帶框月份', #32

'日期單位', #33

'擴充套件漢字', #34

'易經字元', #35

'基礎漢字', #36 基本漢字

'彝文本元', #37

'韓文本元', #38

'全形字符', #39 全形的標點符號

mysql文字字符集 MySQL字符集

字符集 1.什麼是字符集 字符集 是乙個系統支援的所有抽象字元的集合。字元是各種文字和符號的總稱,包括各國家文字 標點符號 圖形符號 數字等。最早的字符集 ascii碼 中國的字符集 gbk,utf8,gbk2312 日本字符集 shift jis 南韓字符集 euc kr 萬國編碼 unicode...

python文字字元分析

編寫程式接收字串,按字元出現頻率的降序列印字母。分別嘗試錄入一些中英文文章片段,比較不同語言之間字元頻率的差別。a6.4calletter txt input 請輸入一段英文片段 txt txt.lower count for i in range 97 123 count chr i txt.co...

中文字符集

gb2312 1980年 16位字符集,收錄有6763個簡體漢字,682個符號,共7445個字元。優點 適用於簡體中文環境,屬於中國國家標準,通行於大陸,新加坡等地也使用此編碼 缺點 不相容正體中文,其漢字集合過少。gbk 1995年 16位字符集,收錄有21003個漢字,883個符號,共21886...