特徵工程方法

2021-10-25 19:26:09 字數 333 閱讀 8432

常用方法總結:

其中過濾法幾大檢驗的區別:

假設x為解釋變數,y為被解釋變數,我們想確定x的取值對y是否有影響:

(1)x,y都為分類變數,比如學歷和購買之間的關係,卡方檢驗、互資訊比較合適;

(2)x為連續變數,y為分類變數,比如身高和購買之間的關係,f檢驗比較合適;

(3)x,y都為連續變數,相關係數即可;互資訊會把連續變數轉換為離散變數再進行計算。

卡方檢驗的思想是分析兩個分類變數的關聯性,比較理論頻數和實際頻數的吻合程度;

互資訊表示由於x的引入而使 y的不確定性減少的量;

f檢驗的思想是將不同類別之間的變異與隨機誤差作比較。

特徵工程 常用的特徵轉換方法總結

機器學習模型的生命週期可以分為以下步驟 要構建模型就必須要對資料進行預處理。特徵轉換是這個過程中最重要的任務之一。在資料集中,大多數時候都會有不同大小的資料。為了使更好的 必須將不同的特徵縮小到相同的幅度範圍或某些特定的資料分布。什麼時候需要特徵轉換 什麼時候不需要特徵轉換 大多數基於樹型模型的整合...

pyspark特徵工程常用方法(一)

本文記錄特徵工程中常用的五種方法 minmaxscaler,normalization,onehotencoding,pca以及quantilediscretizer 用於分箱 原有資料集如下圖 首先將c2列轉換為vector的形式 vecassembler vectorassembler inpu...

特徵工程 資料離散化方法

離散化特徵的增加和減少都很容易,有利於模型的快速迭代 可以有效地避免一些異常資料的干擾,降低資料波動的影響,提高抗雜訊能力,模型結果更穩定 一些演算法的需要,如分類樹 樸素貝葉斯演算法等,是基於離散化資料展開的 減小演算法的空間和時間開銷,起到簡化模型的作用,降低過擬合的風險,提高系統的分類聚類能力...