資料探勘csv檔案與xls檔案預處理

2021-08-16 08:15:45 字數 1405 閱讀 4944

(1)、在windows下的csv檔案,預設開啟方式是gbk格式,在linux下開啟的檔案預設是utf-8的格式。所以windows下的格式在linux下會出現中文亂碼的現象。使用iconv命令對整個檔案進行轉碼的操作。

sudo iconv -f gbk -t utf-

8 d_train_20180102.csv -o new_d_train.csv

後面的第乙個csv為需要轉碼操作的檔案,後面的為生成的新檔案。

(2)、對xls檔案的內容操作

import xlrd

data = xlrd.open_workbook('data.xls')

grade =

lik =

sheet = data.sheet_by_index(0) #此語句可以將xls按照索引進行查詢

s = '優秀'

#判斷某乙個單元格的內容

s_utf8 = s.encode('utf-8') #中文的內容需要就行轉碼操作才能進行比較

print(sheet.nrows) #列印列數

for i in range(1, sheet.nrows):

if sheet.cell(i, 7).value.encode('utf-8') == s_utf8: #把單元格的內容進行轉碼操作

else:

s2 = '是'

s2_utf8 = s2.encode('utf-8')

for i in range(1, sheet.nrows):

if sheet.cell(i, 9).value.encode('utf-8') == s2_utf8:

else:

(3)、csv檔案的處理

import numpy as np

import pandas as pd

train = pd.read_csv('train.csv')

#iloc是基於索引位來選取資料集,0:4就是選取 0,1,2,3這四行

#後面的兩個引數是多少行多少列

train = train.iloc[:-1, :-1]

#np.array可以將形成的矩陣的第一列自帶的行號去掉

print(np.array(train))

train = pd.read_csv('train.csv')

#train.columns是csv檔案中的資料標籤 axis=1表示的是列,不加的話預設為行

#drop函式的好處是不改變檔案的內容,而是返回了乙個新的pandas的解析型別,可以去獲得該變數

train = train.drop(labels= train.columns[-1], axis=1)

print(np.array(train))

xls與csv檔案的區別

在ax中,經常會使用者報表匯出格式為csv個xls格式。他們的效能相差很大,我認為csv是非常高效的格式,而xls效能雖比csv差很多,但xls可以把格式做得很完美。現在我將兩種不同格式做一些整理,希望對你們有點用。xls 檔案就是microsoft excel電子 的檔案格式。我想就不用多介紹了吧...

xls與csv檔案的區別

csv是文字檔案,用記事本就能開啟。xls 是二進位制的檔案只有用 excel 才能開啟 csv 檔案格式只能儲存活動工作表中的單元格所顯示的文字和數值。xls 中所有的資料行和字元都將儲存。資料列以逗號分隔,每一行資料都以回車符結束。如果單元格中包含逗號,則該單元格中的內容以雙引號引起。如果單元格...

python讀取XLS檔案或CSV檔案

file obj request.files.get uploadcsv 如果傳入的是xls檔案 import xlrd 1.讀取xls內容 bk xlrd.open workbook file contents file obj.read 2.或者是告訴它檔案路徑,如下 bk xlrd.open ...