資料清洗與特徵工程

2021-10-23 15:51:22 字數 521 閱讀 2656

查詢空值

處理空值的辦法 1.刪除空值所在的行 2.用給定的值去填充

查詢重複值

刪除重複值

對數值型資料 連續資料進行離散化處理

文字型別處理

#方法三: 使用sklearn.preprocessing的labelencoder

from sklearn.preprocessing import labelencoder

for feat in [『cabin』, 『ticket』]:#for函式

lbl = labelencoder()

label_dict = dict(zip(df[feat].unique(), range(df[feat].nunique())))

df[feat + 「_labelencode」] = df[feat].map(label_dict)

#df[feat + 「_labelencode」] = lbl.fit_transform(df[feat].astype(str))

df.head()

特徵工程 清洗資料

我們在進行機器學習的時候,採用的資料樣本往往是向量 特徵向量 而我們的原始資料並不是以向量的形式呈現給我們的,這是便需要將資料對映到特徵 直接對映便ok 雖然機器學習是根據浮點值進行的訓練,但是不需要將整數6轉換為6.0,這個過程是預設的 好多時候,有的特徵是字串,比如此前訓練的加利福尼亞房產資料集...

特徵工程(2) 資料採集 資料清洗 資料取樣

一 資料採集 資料採集前需要明確採集哪些資料,一般的思路為 哪些資料對最後的結果 有幫助?資料我們能夠採集到嗎?線上實時計算的時候獲取是否快捷?舉例1 我現在要 使用者對商品的下單情況,或者我要給使用者做商品推薦,那我需要採集什麼資訊呢?店家 店鋪的評分 店鋪類別 商品 商品評分 購買人數 顏色 材...

資料清洗及特徵處理

import numpy as np import pandas as pd df pd.read csv train.csv 檢視每個特徵缺失值個數 df.info df.isnull sum df.dropna df.fillna 對age列的資料缺失值進行處理 df df age none 0...