資料集預處理 劃分測試資料集合

2021-09-26 22:30:10 字數 2421 閱讀 4258

野子電競資料官網改版全新登場

在乙個資料集中隨機選出80%的記錄作為訓練資料集,訓練得到相應的數學模型之後,將剩餘的20%的記錄作為驗證,測試模型的準確性。

原有資料集形式:

1::1193::5::978300760

1::661::3::978302109

1::914::3::978301968

1::3408::4::978300275

1::2355::5::978824291

1::1197::3::978302268

1::1287::5::978302039

1::2804::5::978300719

1::594::4::978302268

1::919::4::978301368……

…其中[0]-[3]分別代表不同的特徵

處理後得到的資料集

3418 869 4 967398834

1545 1073 3 974744490

2851 2572 5 972506781

2068 1198 3 974658346

1031 3633 4 974999133

5555 1073 3 959550355

587 3566 1 975946900

1125 3301 2 988697984

4091 1772 1 965425356

2096 3114 5 974653564

5888 1220 5 957480240

710 93 2 975570015……

…python**如下:

import random

def replaced(filename):

new_content=;

readfile=open(filename)

lines=readfile.readlines()

for line in lines:

new_line=line.strip().replace("::","\t")

'''contents=line.split("::")

new_line=contents[0].strip()+"\t"+contents[1].strip()+"\t"+contents[2].strip()+"\t"+contents[3].strip()

'''#print contents

#print new_content

readfile.close()

writefile=open(filename.strip(".csv")+"_replaced.csv",'wb')

for i in range(len(new_content)):

writefile.write(new_content[i]+'\n')

writefile.close()

def choose (filename):

content_test=

content_result=

readfile=open(filename)

lines=readfile.readlines()

sum_length=len(lines)

count=sum_length

print("the numbers of items in 「+filename+」 is "+str(sum_length))

while count > 0:

if len(content_test)<0.8*sum_length:

i=random.randint(0,count-1)

del lines[i]

count=count-1

for j in range(len(lines)):

readfile.close()

writefile=open("content_test.csv",'wb')

for i in range(len(content_test)):

writefile.write(content_test[i])

writefile.close()

writefile=open("content_result.csv",'wb')

for i in range(len(content_result)):

writefile.write(content_result[i])

writefile.close()

filename=「ratings.csv」

choose(filename)

filename_01=「content_test.csv」

filename_02=「content_result.csv」

replaced(filename_01)

replaced(filename_02)

資料集預處理,劃分為測試資料集合驗證資料集

在乙個資料集中隨機選出80 的記錄作為訓練資料集,訓練得到相應的數學模型之後,將剩餘的20 的記錄作為驗證,測試模型的準確性。原有資料集形式 1 1193 5 978300760 1 661 3 978302109 1 914 3 978301968 1 3408 4 978300275 1 235...

構造測試資料 對比測試資料

正確 include using namespace std typedef long long ll const int max n 1e6 10 intmain return0 author max n date 2019 10 04 15.03.21 description 正確 錯誤 inc...

ABIDE資料集預處理專案

4 github專案 專案 preprocessed connectomes project pcp 專案從autism brain imaging data exchange abide 公眾發布和開放共享預處理神經影像資料。由國際神經影像資料共享倡議組織 indi 組成的聯盟是由16個國際影像站...