正則匹配方法

2022-09-01 18:54:15 字數 856 閱讀 4584

這裡是幾個主要非英文語系字元範圍(google上找到的):

2e80~33ffh:中日韓符號區。收容康熙字典部首、中日韓輔助部首、注音符號、日本假名、韓文音符,中日韓的符號、標點、帶圈或帶括符文數字、月份,以及日本的假名組合、單位、年號、月份、日期、時間等。

3400~4dffh:中日韓認同表意文字擴充a區,總計收容6,582個中日韓漢字。

4e00~9fffh:中日韓認同表意文字區,總計收容20,902個中日韓漢字。

a000~a4ffh:彝族文字區,收容中國南方彝族文字和字根。

ac00~d7ffh:韓文拼音組合字區,收容以韓文音符拼成的文字。

f900~faffh:中日韓相容表意文字區,總計收容302個中日韓漢字。

fb00~fffdh:文字表現形式區,收容組合拉丁文本、希伯來文、阿拉伯文、中日韓直式標點、小符號、半形符號、全形符號等。

比如需要匹配所有中日韓非符號字元,那麼正規表示式應該是^[/u3400-/u9fff]+$ 

理論上沒錯, 可是我到msn.co.ko隨便複製了個韓文下來, 發現根本不對, 詭異 

再到msn.co.jp複製了個'お', 也不得行..

然後把範圍擴大到^[/u2e80-/u9fff]+$, 這樣倒是都通過了, 這個應該就是匹配中日韓文字的正規表示式了, 包括我們台灣省還在盲目使用的正體中文

而關於中文的正規表示式, 應該是^[/u4e00-/u9fff]+$, 和論壇裡常被人提起的^[/u4e00-/u9fa5]+$很接近

需要注意的是論壇裡說的^[/u4e00-/u9fa5]+$這是專門用於匹配簡體中文的正規表示式, 實際上繁體字也在裡面, 我用測試器測試了下'中華人民共和國', 也通過了, 當然, ^[/u4e00-/u9fff]+$也是一樣的結果

影像匹配方法

影象匹配的方法很多,一般分為兩大類,一類是基於灰度匹配的方法,另一類是基於特徵匹配的方法。1 基於灰度匹配的方法。也稱作相關匹配演算法,用空間二維滑動模板進行影象匹配,不同演算法的區別主要體現在模板及相關準則的選擇方面。已有的基於灰度的匹配方法很多,如 leese於1971年提出的mad演算法 為使...

OpenCV模板匹配方法原理

模板匹配 templatematching 就是在一幅影象中尋找和模板影象 template 最相似的區域,該方法原理簡單計算速度快,能夠應用於目標識別,目標跟蹤等多個領域。引數解釋 image 輸入影象。必須為8位或者32位的浮點型。templ 用於搜尋的模板影象。必須小於輸入影象並且是一樣的資料...

文字匹配方法系列 BERT匹配模型

在介紹深層次互動匹配方法之前,本文接著多語義匹配方法 1 介紹基於bert模型實現文字匹配的方法。將其單獨介紹主要因為bert實現文字匹配操作方便且效果優秀,比較適用於工業應用場景。關於bert模型,devlin,j.chang,m.w.lee,k.toutanova,k.2018 2 在 中有較為...