中文文字字符集分析過濾工具

tag: chatset 字符集過濾

搞煩了好多次了，就在想用什麼方法可能快速、方便地處理呢？於是想做乙個關於「字符集分析及過濾的工具」，就有了這個小工具。

我查詢了有關utf8字符集的資料，其實字符集存放是有一定規律的，當然這裡就涉及到什麼標準啊之類的很多內容，這裡不詳細展開。如果能夠把各類的字元歸一下類，那麼就能夠把這些不可見的字元找出來了。這裡把utf8字符集分成了40類。

其中有幾類要特別說明一下：

其它更詳細的請見後文中的清單

utf-8字符集分析過濾工具 charsetfilter

版本: v 1.0.1

更新：xmxoxo 2019/10/14

工具說明：本工具把utf8字符集分成了40個子集，可對文字檔案中的字符集進行分析，

統計各類字元的總數以及出現的種類數。同時還可以方便地過濾或者保留的字元，

特別適合nlp等領域中對不可見字元的過濾分析等處理。

注: 被分析的文字檔案需要是utf8格式

分析文字字符集，輸出簡要資訊

python charsetfilter.py --file ./111.txt

分析文字字符集，輸出詳細資訊，詳細資訊會儲存到 ***_report.txt 檔案中

python charsetfilter.py --file ./111.txt --detail 1

分析文字字符集，按預設值過濾(過濾「尚未識別 0」, 「控制字元 3」)，並儲存過濾結果(自動命名)

python charsetfilter.py --file ./111.txt --filter 1

分析文字字符集，僅保留 1,2,36,39，並儲存過濾結果(自動命名為 ***_out.txt)

python charsetfilter.py --file ./111.txt --filter 1 --remain_charset 1 2 36 39

以下是使用的一些截圖：

字符集分析結果截圖

[外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接上傳(img-xocolju9-1571024581088)(

字符集分析詳細結果輸出檔案截圖（部分）:

[外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接上傳(img-qa9s04tp-1571024581089)(

'尚未識別', #0 除以下標識的範圍之外的字元，基本可認為是沒有用的字元 '系統字元', #1 包括換行，製表，回車等 '英文半形', #2 包含數字，字母，符號，空格 '控制字元', #3 可刪除，會影響文字處理 '擴充套件半形', #4 一些半形符號 '韓文本元', #5 '傣文字元', #6 '新傣文字', #7 '標點字元', #8 '上標下標', #9 '字母符號', #10 '數字符號', #11 '箭頭字元', #12 '數學符號', #13 全形數學符號 '工程符號', #14 '控制圖符', #15 '識別符號', #16 '序號字元', #17 帶圓圈的序號字元 '製表字元', #18 '方塊元素', #19 '雜項符號', #20 '裝飾符號', #21 '盲文符號', #22 '部首補充', #23 '康熙部首', #24 '漢字結構', #26 '標點符號', #27 '日文字元', #28 '韓文本母', #29 '筆劃字元', #30 '日文拼音', #31 '帶框月份', #32 '日期單位', #33 '擴充套件漢字', #34 '易經字元', #35 '基礎漢字', #36 基本漢字 '彝文本元', #37 '韓文本元', #38 '全形字符', #39 全形的標點符號

中文文字字符集分析過濾工具

mysql文字字符集 MySQL字符集

python文字字元分析

中文字符集

中文文字字符集分析過濾工具

mysql文字字符集 MySQL字符集

python文字字元分析

中文字符集

相關推薦