情感分類之資料處理

深度學習的快速發展離不開龐大的資料量，做好資料處理是深度學習的第一步。

然而paddlehub對自定義資料有格式要求，要求相應的資料格式為第一列是文字內容text_a，第二列為文字類別label。列與列之間以tab鍵分隔。資料集檔案第一行為text_a label（中間以tab鍵分隔）,儲存為tsv檔案。

而我的原資料是csv檔案，首先要把csv檔案（以逗號分隔）轉為tsv檔案（以tab鍵分隔）：

import pandas as pd
from sklearn.utils import shuffle # 用於資料的隨機排列，也可不用
if __name__ == '__main__':
dtype_dic = # 設定資料讀取的型別
# 此處是讀取中文資料，如果是英文資料，編碼可能是'iso 8859-1'
pd_all = pd.read_csv("test.csv", sep=',', header=none, dtype=dtype_dic, encoding='utf-8') # "../test_dataset/predict.csv"
# pd_all[0].astype('int')
# 打亂資料
# pd_all = shuffle(pd_all)
# 儲存為tsv檔案，當然也可以儲存為csv檔案，二者區別在於sep為'\t'還是','
pd_all.to_csv("test.tsv", index=false, sep='\t') # index = false 不儲存索引

如果遇到讀取檔案時編碼問題，需要先使用notepad++將檔案轉為utf-8編碼。

由於原資料中存在不符合要求的資料，盡量先檢查資料格式，不能有一絲錯誤。否則，在深度學習跑**過程中將會出現資料讀取錯誤。

Python之資料處理

靠別人不如靠自己，學學學學學學學學！原資料需求 coding utf 8 txtfile aminer1.txt newtxtfile open new txtfile,w with open txtfile,r as file to read lines file to read.readlin...

python之資料處理

檔案資料讀寫的基本操作 import this 本地檔案的界定指向乙個本地儲存的檔案，是乙個連線或者乙個對映 path1 c users 11786 desktop test.txt 正斜線兩個或者反斜線乙個來用於資料路徑的表達再或者用r 寫在檔案路徑外面推薦第三種 path2 c users...

資料互動之資料處理

資料互動必須通過協議來實現，所以互動雙方必須遵循一定的讀寫規則我的方法很簡單但可以用，如果大家有好的方法，不妨交流一下實現方法資料流類datastream有兩個char 型指標，分別用來儲存讀寫的資料，還有w pos，r pos兩個資料用來記錄讀寫的位置，而且要用到互斥鎖，確保指標的安全性 v...

情感分類之資料處理

Python之資料處理

python之資料處理

資料互動之資料處理

相關推薦