讀書筆記 《特徵工程入門與實踐》

2021-10-07 07:10:36 字數 1606 閱讀 7777

歸一化和標準化

本書認為資料可以分為四大等級,分為是:定類、定序、定距、定比,其中定類和定序都是定性的資料,定距和定比是定量的資料。

定類是離散的、無序的,舉例:人名、油漆名稱、動物物種:猴子、馬、牛等

定序是有序類別、可以比較的,舉例:考試等級:great、good、not bad、bad等或 0 - 6 表示心情的好壞程度

定距是有資料意義的、但是做除法是沒有意義的,比如溫度

定比是連續的、存在有意義的絕對零點、可以做除法

特徵清洗是指調整已有的列和行,特徵增強是指在資料集中刪除和新增新的列;

這裡會提到:

eda exploratory data analysis

在接觸資料的時候,需要做一次eda,對資料有乙個大致的了解,在python中,常用的包是pandas、numpy、matplotlib、seaborn;匯入所需包如下:

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import seaborn as sns

%matplotlib inline

plt.style.use(

'fivethirtyeight'

)

這一步一般會包括基本的五數總括、資料分布等,簡單的相關分析和方差分析,缺失值分布、每列資料型別等

缺失值無外乎兩個處理方式:1. 刪除 2.填充

刪除: dropna(), 刪除比較粗暴,當缺失行數佔比非常少,少到可以忽略的情況可以考慮;否則一般建議填充缺失值

平均值: df[col].fillna(df[col].mean(),inplace=true)

或借助scikit-learn的preprocessing

from sklearn.preprocessing import imputer

imputer = imputer(strategy=

'mean'

)col_names = df.columns

imputed_array = imputer.fit_tansform(df)

# 因為imputer的輸出不是dataframe而是np.ndarray,需要轉換為dataframe

df_imputed = pd.dataframe(imputed_array, columns=col_names)

擴充套件閱讀 : 引入一下imputer的方法

sklearn.preprocessing.imputer(missing_values=『nan』, strategy=『mean』, axis=0, verbose=0, copy=true)

---- 未完待續

特徵工程入門與實踐 筆記 sklearn

目錄 一 特徵理解 1 定類資料 2 定序資料 3 定距資料 4 定比資料 二 清洗資料 1 識別缺失值 1 刪除缺失值的行 2 填充缺失值 醫學類資料禁用,因為要求真實 2 標準化 歸一化 三 特徵構建 1 定類特徵的填充 2 定量特徵的填充 3 定類特徵的編碼 4 定序特徵的編碼 5 連續值分箱...

《Kafka入門與實踐》讀書筆記

1 具有高吞吐量來支援如實時的日誌集這樣的大規模事件流。2 能夠很好地處理積壓的資料,以便能夠周期性地載入離線資料進行處理。3 能給低延遲地處理傳統訊息應用場景。4 能夠支援分割槽 分布式,實時地處理訊息,同時具有容錯保障機制。當前比較流行的訊息中介軟體有kafka rocketmq rabbit ...

特徵工程 特徵工程入門與實踐(一)

特徵工程 將資料轉換為能更好地表示潛在問題的特徵,從而提高機器學習效能。大體上,機器學習分為兩類 評估分類問題,可以採用交叉驗證法 from sklearn.linear model import logisticregression from sklearn.model selection imp...