資料清洗與特徵工程

查詢空值

處理空值的辦法 1.刪除空值所在的行 2.用給定的值去填充

查詢重複值

刪除重複值

對數值型資料連續資料進行離散化處理

文字型別處理

#方法三: 使用sklearn.preprocessing的labelencoder

from sklearn.preprocessing import labelencoder

for feat in [『cabin』, 『ticket』]:#for函式

lbl = labelencoder()

label_dict = dict(zip(df[feat].unique(), range(df[feat].nunique())))

df[feat + 「_labelencode」] = df[feat].map(label_dict)

#df[feat + 「_labelencode」] = lbl.fit_transform(df[feat].astype(str))

df.head()

特徵工程清洗資料

我們在進行機器學習的時候，採用的資料樣本往往是向量特徵向量而我們的原始資料並不是以向量的形式呈現給我們的，這是便需要將資料對映到特徵直接對映便ok 雖然機器學習是根據浮點值進行的訓練，但是不需要將整數6轉換為6.0，這個過程是預設的好多時候，有的特徵是字串，比如此前訓練的加利福尼亞房產資料集...

特徵工程（2）資料採集資料清洗資料取樣

一資料採集資料採集前需要明確採集哪些資料，一般的思路為哪些資料對最後的結果有幫助？資料我們能夠採集到嗎？線上實時計算的時候獲取是否快捷？舉例1 我現在要使用者對商品的下單情況，或者我要給使用者做商品推薦，那我需要採集什麼資訊呢？店家店鋪的評分店鋪類別商品商品評分購買人數顏色材...

資料清洗及特徵處理

import numpy as np import pandas as pd df pd.read csv train.csv 檢視每個特徵缺失值個數 df.info df.isnull sum df.dropna df.fillna 對age列的資料缺失值進行處理 df df age none 0...

資料清洗與特徵工程

特徵工程 清洗資料

特徵工程（2） 資料採集 資料清洗 資料取樣

資料清洗及特徵處理

相關推薦

特徵工程清洗資料

特徵工程（2）資料採集資料清洗資料取樣