讀書筆記《特徵工程入門與實踐》

歸一化和標準化

本書認為資料可以分為四大等級，分為是：定類、定序、定距、定比，其中定類和定序都是定性的資料，定距和定比是定量的資料。

定類是離散的、無序的，舉例：人名、油漆名稱、動物物種：猴子、馬、牛等

定序是有序類別、可以比較的，舉例：考試等級：great、good、not bad、bad等或 0 - 6 表示心情的好壞程度

定距是有資料意義的、但是做除法是沒有意義的，比如溫度

定比是連續的、存在有意義的絕對零點、可以做除法

特徵清洗是指調整已有的列和行，特徵增強是指在資料集中刪除和新增新的列；

這裡會提到：

eda exploratory data analysis

在接觸資料的時候，需要做一次eda,對資料有乙個大致的了解，在python中，常用的包是pandas、numpy、matplotlib、seaborn；匯入所需包如下：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
plt.style.use(
'fivethirtyeight'
)

這一步一般會包括基本的五數總括、資料分布等，簡單的相關分析和方差分析，缺失值分布、每列資料型別等

缺失值無外乎兩個處理方式：1. 刪除 2.填充

刪除： dropna(), 刪除比較粗暴，當缺失行數佔比非常少，少到可以忽略的情況可以考慮；否則一般建議填充缺失值

平均值: df[col].fillna(df[col].mean(),inplace=true)

或借助scikit-learn的preprocessing

from sklearn.preprocessing import imputer
imputer = imputer(strategy=
'mean'
)col_names = df.columns
imputed_array = imputer.fit_tansform(df)
# 因為imputer的輸出不是dataframe而是np.ndarray,需要轉換為dataframe
df_imputed = pd.dataframe(imputed_array, columns=col_names)

擴充套件閱讀 : 引入一下imputer的方法

sklearn.preprocessing.imputer(missing_values=『nan』, strategy=『mean』, axis=0, verbose=0, copy=true)

---- 未完待續

特徵工程入門與實踐筆記 sklearn

目錄一特徵理解 1 定類資料 2 定序資料 3 定距資料 4 定比資料二清洗資料 1 識別缺失值 1 刪除缺失值的行 2 填充缺失值醫學類資料禁用，因為要求真實 2 標準化歸一化三特徵構建 1 定類特徵的填充 2 定量特徵的填充 3 定類特徵的編碼 4 定序特徵的編碼 5 連續值分箱...

《Kafka入門與實踐》讀書筆記

1 具有高吞吐量來支援如實時的日誌集這樣的大規模事件流。2 能夠很好地處理積壓的資料，以便能夠周期性地載入離線資料進行處理。3 能給低延遲地處理傳統訊息應用場景。4 能夠支援分割槽分布式，實時地處理訊息，同時具有容錯保障機制。當前比較流行的訊息中介軟體有kafka rocketmq rabbit ...

特徵工程特徵工程入門與實踐（一）

特徵工程將資料轉換為能更好地表示潛在問題的特徵，從而提高機器學習效能。大體上，機器學習分為兩類評估分類問題，可以採用交叉驗證法 from sklearn.linear model import logisticregression from sklearn.model selection imp...

讀書筆記 《特徵工程入門與實踐》

特徵工程入門與實踐 筆記 sklearn

《Kafka入門與實踐》讀書筆記

特徵工程 特徵工程入門與實踐（一）

相關推薦

讀書筆記《特徵工程入門與實踐》

特徵工程入門與實踐筆記 sklearn

特徵工程特徵工程入門與實踐（一）