NLU專案遇到的坑與解決方法 編碼問題

2021-09-05 19:21:57 字數 673 閱讀 2166

python處理excel**的時候經常會有編碼問題,但是我必須吐槽一下公司的業務,能不能統一一下格式,不要亂按字元,處理excel**期間,我幾乎見識了所有的編碼格式,並且只要刪除一行文字編碼格式就會改變,心疼自己這幾個月了,給自己加個雞腿,不得不說網際網路公司team還是很和諧的,另外想說旁邊語言組的實習小姐姐們都很好看,如果有之後的小夥伴接手了我的活,還希望你能勇敢一點搭訕一下隔壁的小姐姐,幫我完成這一小小心願。

很多的**是業務人員做的,所以可能有不同的編碼格式,用pandas開啟時需要指定編碼格式,經常錯。

用二進位制開啟,檢測編碼型別,然後返回編碼格式,再傳乙個引數給openfile函式

def get_encoding(file):

# 二進位制方式讀取,獲取位元組資料,檢測型別

with open(file, 'rb') as f:

return chardet.detect(f.read())['encoding']

然後用pandas開啟

def open_chat_log_files(filepath,coding_model):

# 開啟csv檔案並修改該檔案

df = pd.read_csv(filepath, sep=',', encoding=coding_model,header=[1])

return df

匯出Word遇到的坑及解決方法(二)!

當你遇到多選框的時候,要求你要在方框中打上對勾!你會怎麼處理?部分 如下 這只是後端的 這樣寫還是不能進行正確的打上對勾。還需要。企業規模 string qygm vo.getqygm if qygm null else if qygm.equals 2 else if qygm.equals 3 ...

安裝harfbuzz遇到的報錯與解決方法

重新安裝ggrastr,需要先安裝harfbuzz。0 報錯 autogen.sh 出現 undefined symbol perl xs handshake 解決方法 重灌 autoconf automake,libtool 1 報錯 0 解決後,autogen.sh 又出現 src hb ucd...

部署專案遇到的mysql問題以及解決方法

1 資料庫報錯 expression 1 of order by clause is not in select list,references column oss web.i.create date which is not in select list this is incompatible...