python中文單字問題

2021-10-03 19:37:11 字數 2312 閱讀 4194

一直都有這個問題的說,或許其實並沒有自己想象的那麼難處理的說;

對應的python2 python3都有相應的解決辦法。

已知有檔案

明天天氣
現在需要進行單字切分,得到檔案

明天天

python2 與 python3 都有相應的解決辦法,現在直接貼**了

#!/usr/bin/env python

#coding:utf-8

import os

import sys

import string

import re

class getobject(object):

def __init__(self, input_str, output_str):

self.input_str = input_str

self.output_str = output_str

def process(self):

print('process here')

fp = open(self.input_str, 'rt')

fp_out = open(self.output_str, 'wt')

for line in fp.readlines():

line = line.strip()

for key in line.decode('utf-8'):

fp_out.write('%s\n' % (key.encode('utf-8')))

fp.close()

fp_out.close()

return

if __name__ == '__main__':

if len(sys.ar**) != 3:

print('usage: %s input output' % (sys.ar**[0]))

sys.exit(-1)

handle = getobject(sys.ar**[1], sys.ar**[2])

handle.process()

對應的命令列是

python2 pysh/test_char.py test.txt test.txt.out
以上就是python2的。

#!/usr/bin/env python

#coding:utf-8

import os

import sys

import string

import re

class

getobject

(object):

def__init__

(self, input_str, output_str)

: self.input_str = input_str

self.output_str = output_str

defprocess

(self)

:print

('process here'

) fp =

open

(self.input_str,

'rt'

) fp_out =

open

(self.output_str,

'wt'

)for line in fp.readlines():

line = line.strip(

)for key in line:

fp_out.write(

'%s\n'

%(key)

) fp.close(

) fp_out.close(

)return

if __name__ ==

'__main__':if

len(sys.ar**)!=3

:print

('usage: %s input output'

%(sys.ar**[0]

))sys.exit(-1

) handle = getobject(sys.ar**[1]

, sys.ar**[2]

) handle.process(

)

那麼對應的命令列是

python3 pysh/test_char.py test.txt test.txt.out
python3中 str 沒有 encode decode 函式;這裡可以直接使用。

Midas 中文單字過濾補丁

如 like 小 單字過濾 經測試兩種方式 filter屬性 locate方法 正常。提供各種版本的補丁,欠缺的版本會盡快補上。測試所用 unit main inte ce uses windows,messages,sysutils,variants,classes,graphics,contro...

python 中文問題

coding utf 8 coding utf 8 中文問題 python內部所有編碼時unicode 是一種中轉碼 中文是gbk 正常輸出是utf 8 中使用了 coding utf 8 亂碼 unicode中轉碼 我們需要的編碼格式 decode unicode encode我們需要的編碼 例子...

python中文問題

搭建 python 的 eclips環境後寫了乙個測試程式。結果出現這樣的錯誤 syntaxerror non ascii character xbd in file e workspace makeupdatafilesindex src makeindex.py on line 12,but n...