從零開始天池新人離線賽 資料預處理

2021-08-01 14:39:25 字數 883 閱讀 3025

作為乙個資料探勘和python程式設計的雙面小白,從零就真的是從一張白紙開始了。

今天,首先學習怎麼將阿里給我們的csv檔案匯入到python中;

import csv

itemcsv = file('d:/test/item.csv','rb')

r1 = csv.reader(itemcsv)

到這步為止,初步將該item.csv匯入了python中;

接下來,如果想要列印這些資料,只需要以下即可。

for line in r1:

print line

itemcsv.close()

但這肯定沒達到我們想要的結果,至少我們需要將csv裡的資料,以逗號為分割,將之存入一定的資料結構中

這時候就需要借助numpy工具了;

import numpy as np

data = np.genfromtxt(item,delimiter=',',skip_header=1)

這樣資料就在data結構裡面了,data的具體用法和python裡的列表相同,檢視具體結果如下:

此時,發現所有中間列的脫敏處理後的地理資訊的字串並沒有存入data中;

查閱資料可知,需要修改genfromtxt中的引數,

data = np.genfromtxt(item,delimiter=',',skip_header=1,dtype=str)
這樣,三列的內容就被全部儲存在data變數中了。

天池新人實戰賽之 離線賽 嘗試(四)

之前的特徵值有10幾個,有點少了。增加特徵值到40多個。特徵選取參考 使用pyspark.ml.classification import gbtclassifier 裡的模型。幾個引數解釋 maxiter 迭代次數 maxdepth 樹的最大深度 stepsize 每次迭代優化步長 學習速率 se...

天池新人賽 資料探勘

組別 wlh 奧林匹克百公尺跑資料 python 程式設計是基於python的環境進行,可以在環境中構造資料模型 畫出建立的方程模型影象和散點圖的影象,進行對比 x test np.linspace 1896,2008,100 none 在文件中讀取x的值 f test w0 w1 x test 之...

從零開始學習 從零開始學習資料結構 雜湊桶

雜湊桶的本質是雜湊表,雜湊表的本質是 k v,k v 不就是 map,那麼這樣一層一層學習下來,就能理解的更為透徹,學習程式設計一定要有追根刨底的好奇心,這樣你的進步會非常快。1 桶 就是可以存放資料的結構 在這裡我認為桶就是結構體!在雜湊表的改進之上,雜湊表當時自己的做法是 表中存放的是指標,而不...