python 過濾四位元組字元 表情字元

2021-06-27 11:54:54 字數 408 閱讀 6784

專案中有時需要過濾掉四位元組以上的字元(表情),比如mysql資料庫5.5.3以下的版本text欄位不支援四位元組以上字元

於是就需要過濾掉再入庫,python中的方法為:

try:

# python ucs-4 build的處理方式

highpoints = re.compile(u'[\u00010000-\u0010ffff]')

except re.error:

# python ucs-2 build的處理方式

highpoints = re.compile(u'[\ud800-\udbff][\udc00-\udfff]')

resovle_value = highpoints.sub(u'??', src_string)

四位元組記憶體對齊

首先我們先看看下面的c語言的結構體 typedef struct memalign memalign 以上這個結構體占用記憶體多少空間呢?也許你會說,這個簡單,計算每個型別的大小,將它們相加就行了,以32為平台為例,int型別佔4字節,char占用1字節,所以 4 3 4 11,那麼這個結構體一共占...

特殊符號,emoji表情,四位元組去除問題

最近遇到乙個問題,公司的資料庫是utf 8的字符集,而支援 特殊符號,emoji表情,四位元組等特殊符號的需要是utf 8mb4的字符集才可以,不然強行插入是會報錯的,這時候就需要將獲取到的包含特殊符號的字串進行去除特殊符號的處理。具體方法如下 處理四位元組 及特殊符號無法儲存資料庫的問題 if s...

吃虧在四位元組對齊

吃虧在四位元組對齊 我在寫程式的時候遇到乙個問題,費了我半天的時間才找到答案,記錄如下 我原來乙個程式有如下結構 uchar rx buf max buf typedef struct 本結構體保證四位元組對齊 protocol 程式片斷 protocol proto for i 0 itx buf...