LightGBM標籤特徵應用小結

2021-09-02 16:24:40 字數 1200 閱讀 1645

昨天我用lightgbm對乙個小資料集進行了回歸**,其中特徵部分包含定性特徵(標籤特徵),因為在lightgbm官方文件中看到lightgbm可以通過『categorical_feature』引數直接處理標籤特徵,而且計算速度更快,效果更佳。

文件引數說明如下:

categorical_feature?︎, default ="", type = multi-int or string, aliases:cat_feature,categorical_column,cat_column

配合引數有:用於正則化的cat_smooth、每類標籤組最小資料數min_data_per_group、過濾掉小集合bin容器後用於搜尋bin容器的上限值max_cat_threshold

cat_smooth?︎, default =10.0, type = double, constraints:cat_smooth >= 0.0

min_data_per_group?︎, default =100, type = int, constraints:min_data_per_group > 0

max_cat_threshold?︎, default =32, type = int, constraints:max_cat_threshold > 0

我所用資料集因為樣本數只有不到1000,標籤特徵有兩個分別是:當周第幾天和當月第幾天。在進行實踐應用時發現,應用標籤特徵引數較直接將標籤引數作為定量特徵處理得到的**準確率有微小提公升,而如果將標籤特徵進行onehotencoder()編碼相較應用標籤特徵引數準確率又有微小上公升。所以就我所用的小資料集、小標籤特徵情況下,lightgbm標籤特徵引數處理較利用啞編碼(onehotencoder())對標籤特徵處理後準確率略低,希望大家以後進行實驗時如果碰到類似情況可以採用啞編碼進行對比驗證。

通過查閱資料發現,對於特徵中標籤特徵較多較重要時,可採用catboost模型,今天我會進行嘗試,後續進行總結記錄。

spring security 標籤應用

應用標籤庫 taglib prefix security uri 是乙個流程控制標籤,能夠在滿足特定安全需求的條件下顯示它的內容體。它有三個互斥的引數 ifallgranted 是乙個由逗號分隔的許可權列表,使用者必須擁有所有列出的許可權時顯示 ifanygranted 是乙個由逗號分隔的許可權列表...

小波部分特徵說明和小波特徵比較 未寫完

小波特徵 1 多分辨分析可以對訊號進行有效的時頻分分解,但是由於其尺度函式是按二進位制變化的,因此在高頻段器頻率解析度較差,對訊號的頻段進行指數等間隔劃分。小波包能夠為訊號提供一種更加精細的分析方法,它將頻帶進行多層劃分,對多分辨分析沒有細分的高頻部分進一步分解,並能更具被分析訊號的特徵,自適應的選...

div標籤小知識

在進行web前端開發時經常用到div這個標籤,乙個div標籤的面積被均分為12列,類似下圖 因此我們在設計介面的時候就可以根據這個來設計版面,具體用法為 在div標籤中使用class col sm x 其中x為具體數值 來設定。x的取值為1 12,具體數值佔面積比如下 col sm 12 col s...