FeatureTools框架概述

2022-09-04 21:18:18 字數 638 閱讀 1528

featuretools

功能強大,主要用於自動化構建特徵工程;

三種重要的組成:實體,特徵基元,dfs;

實體:類似乙個表;多個實體間可以構建關係,類似關聯表;多個實體形成實體集;

特徵基元:類似對表字段的處理方式,一種處理方式稱為一種特徵基元,且可以自定義特徵基元,比如:求和 sum(), 最小值 min(), 平均數 **g() 等;

dfs:   類似封裝好的物件,可以接入實體集,特徵基元;將特徵基元定義好的處理規則,應用於實體,產出該實體的統計資訊;

例如:實體/資料:會員資訊,訂單資訊,商品資訊

實體關係/資料關係:會員與訂單 一對多,訂單與產品一對多;

特徵基元/統計規則:會員的訂單數,會員的商品數,會員的最大訂單額,會員的平均訂單額,會員的最小訂單額 等等;

1,配置實體的字段型別及其他資訊(可以不配置,dfs可以自動推斷型別,但不準確);

2,配置特徵基元資訊,如:mode()、mean()、sum()、std();

3,  dfs接入配置資訊,根據實體字段型別,使用相應的特徵基元進行計算,得出結果;

問題:1,當資料表過多,欄位過多時,涉及的配置工作會很多;

2,當資料量過大時,基於python需啟用多程序/多執行緒方式計算,開發調優的工作量大;

Featuretools 學習5 處理時間

當對時間資料執行特徵工程的時候,謹慎選擇用於計算的資料是十分必要的。通過使用乙個time index列注釋實體 並且 在計算中提供乙個cutoff time時,featuretools會自動過濾截止時間之後的任何資料,然後再執行計算。時間索引是資料中的列,用於指定何時知道每一行中的資料,例如 檢查乙...

Important Concepts(重要概念)

important concepts 重要概念 你應該理解 libjingle 中以下的重要概念 signals 訊號 threads and messages 執行緒 訊息 naming conventions 命名約定 ssl support ssl 支援 connections 鏈結 tran...

編寫DirectShow Filters 概述

seeker 一 介紹directshow filter開發 本章提供開發乙個自定義directshow filter的簡單框架描述,也提供了鏈結到更詳細討論這些任務的主題。在閱讀本章之前,閱讀在about directshow主題,它描述了全面的directshow構架。1.directshow基...