Python關於list裡面的unicode編碼

2021-07-23 16:33:10 字數 1068 閱讀 8550

利用python2.7結巴分詞對文字分詞之後存進list列表裡面

import jieba

seg_list = jieba.cut("網路,讓我們之間的距離變的如此之近,也如此遙遠。")

a = [i for i in seg_list]

a = str(a).replace('u\'','\'')

s = a.decode("unicode-escape")

print s

此時seg_list是乙個生成器generator。如果不存進列表直接一次性列印的話,需要新增print ' '.join(seg_list)。

存進列表之後如果只是到了第乙個a就輸出的話,結果如下:

[u'\u7f51\u7edc', u'\uff0c', u'\u8ba9', u'\u6211\u4eec', ...]

此時如果直接索引的話,列印出來是正常中文,如print a[0]。

為了將list裡面的字串更換為中文,需要先將前面的u替換為空,之後利用decode函式解碼,結果如下:

['網路', '讓', '我們', '之間', '的', '距離', '變', '的', '如此', '之近', ',', '也', '同時', '讓', '我們', '變', '的', '如此', '遙遠', '。']

此時list全部變成unicode格式。如果文字包含標點符號也能分得出來,例如,「清峪路260-278號(雙)、258弄33、35號」,結果如下:

['清峪路', '260', '-', '278', '號', '(', '雙', ')', '、', '258', '弄', '33', '、', '35', '號']

結巴分詞如果需要去掉標點符號,則在jieba.cut加上引數:

seg_list = jieba.cut("清峪路260-278號(雙)、258弄33、35號",cut_all=true)

Python裡面的字典

python 將這種資料型別叫做 dict 有的語言裡它的名稱是 hash 這兩種名字都會用到,不過這並不重要,重要的是它們和列表的區別。你看,針對列表你可以做這樣的事情 things a b c d print things 1 b things 1 z print things 1 z prin...

python裡面的數學

一.基本運算子 1.算數運算 2.比較運算 特殊情況 不等於 新版本不支援 不等號 3.賦值運算 4.邏輯運算 not 非 非真即假,非假即真.and 並且 左右兩端同時為真,結果才為真.or 或者 左右兩端有乙個為真,結果就是真.true 真 1 判斷的結果 false 假 0 判斷的結果 pri...

關於channel裡面的策略

關於channel裡面的策略 channel裡面的配置主要在data.data 0 pyload.data.config裡面。config是由groups遞迴形成的。groups的結構如下 groups 下一層 mod policy 當前層發生改變時,需要執行的策略名稱 policies 當前層策略...