生成arff檔案,csv轉為arff

2021-09-06 14:46:33 字數 1268 閱讀 9590

一、什麼是arff格式檔案

1、arff是attribute-relation file format縮寫,從英文本面也能大概看出什麼意思。它是weka資料探勘開源程式使用的一種檔案模式。由於weka是個很出色的資料探勘開源專案,所以使用的比較廣,這也無形中推廣了它的資料儲存格式。

2、下面是weka自帶的乙個arff檔案例子(weather.arff)

1 @relation weather

2 3 @attribute outlook

4 @attribute temperature real

5 @attribute humidity real

6 @attribute windy

7 @attribute play

8 9 @data

10 sunny,85,85,false,no

11 sunny,80,90,true,no

12 overcast,83,86,false,yes

13 rainy,70,96,false,yes

14 rainy,68,80,false,yes

15 rainy,65,70,true,no

16 overcast,64,65,true,yes

17 sunny,72,95,false,no

18 sunny,69,70,false,yes

19 rainy,75,80,false,yes

20 sunny,75,70,true,yes

21 overcast,72,90,true,yes

22 overcast,81,75,false,yes

23 rainy,71,91,true,no

a) 第1行,是關係名稱,這個自己隨便起,不過寫的最好要有意義。

b) 第3~7行是特徵列表,其中第1列是特徵說明,不可缺少,第2列是特徵名稱,第3列是特徵型別或特徵取值範圍。

c) @data(第9行)是資料域說明,在它下面的全是資料。其中每一行體表一條資料。

d) 例子中給出的資料域是最基本的表示方法,實際應用中,一般都是用稀疏表示法。

二、總體思路

1、生成特徵檔案

2、檔案格式轉換

三、具體實現

參考:weka資料探勘拾遺(一)---- 生成arff格式檔案

四、weka csv轉為arff

雖然weka也支援其他一些格式的檔案,但是arff格式是支援的最好的。因此有必要在資料處理之前把資料集的格式轉換成arff。

參考:

python將arff檔案轉為csv檔案

資料集有可能是以arff格式 weka用的 儲存,一般的機器學習使用numpy,pandas和sklearn多一些,無法直接讀取檔案,所以需要scipy.io.arff.loadarff過渡下。from scipy.io import arff import pandas as pd file na...

python xls檔案轉為csv

import pandas as pda ex pda.read excel k.xls ex.to csv k.csv encoding gbk 很多檔案轉為csv檔案時,encoding utf 8 時會出現亂碼,所以我才會選擇使用gbk。同理,csv轉為xls也是一樣的。import pand...

批量將CSV檔案轉為excel

import os import pandas as pd fp r c users jjjj desktop 233 for root,dirs list,files list in os.walk fp root 表示當前資料夾路徑 dirs 當前資料夾下所有子目錄名 files 當前資料夾下所...