連續變數離散化的原因

資料離散化是指將連續的資料進行分段，使其變為一段段離散化的區間。分段的原則有基於等距離、等頻率或優化的方法。資料離散化的原因主要有以下幾點：

比如決策樹、樸素貝葉斯等演算法，都是基於離散型的資料展開的。如果要使用該類演算法，必須將離散型的資料進行。有效的離散化能減小演算法的時間和空間開銷，提高系統對樣本的分類聚類能力和抗雜訊能力。

比如工資收入，月薪2000和月薪20000，從連續型特徵來看高低薪的差異還要通過數值層面才能理解，但將其轉換為離散型資料（底薪、高薪），則可以更加直觀的表達出了我們心中所想的高薪和底薪。

在工業界，很少直接將連續值作為邏輯回歸模型的特徵輸入，而是將連續特徵離散化為一系列0、1特徵交給邏輯回歸模型，這樣做的優勢有以下幾點：

1、無監督學習方法

等寬法即是將屬性值分為具有相同寬度的區間，區間的個數k根據實際情況來決定。比如屬性值在[0，60]之間，最小值為0，最大值為60，我們要將其分為3等分，則區間被劃分為[0,20] 、[21,40] 、[41，60]，每個屬性值對應屬於它的那個區間

等寬法即是將屬性值分為具有相同寬度的區間，區間的個數k根據實際情況來決定。比如有60個樣本，我們要將其分為k=3部分，則每部分的長度為20個樣本。

基於聚類的方法分為兩個步驟，即：

選定聚類演算法將其進行聚類

將在同乙個簇內的屬性值做為統一標記。

注：基於聚類的方法，簇的個數要根據聚類演算法的實際情況來決定，比如對於k-means演算法，簇的個數可以自己決定，但對於dbscan，則是演算法找尋簇的個數。

2、有監督學習方法：

離散變數和連續變數

離散變數是指其數值只能用自然數或整數單位計算的則為離散變數.例如,企業個數,職工人數,裝置台數等,只能按計量單位數計數,這種變數的數值一般用計數方法取得.反之,在一定區間內可以任意取值的變數叫連續變數,其數值是連續不斷的,相鄰兩個數值可作無限分割,即可取無限個數值.例如,生產零件的規格尺寸,人體測量...

連續變數離散化的幾種方法

連續變數離散化有三種方法 1.等寬離散化 2.等頻離散化 3.利用聚類進行離散化 import numpy as np import pandas as pd 引數初始化 datafile data discretization data.xls 讀取資料 data pd.read excel da...

特徵的轉換 02 連續變數的離散化

今日記事把頭髮高高盤起，畫上一字眉。工作後就少了太多銳氣，磨得圓滑尚且是好，但圓了就難免要缺失點篤定的方向，最怕滾來滾去，滾回起點。而方向越篤定，心越沉下來，難免要變得好安靜。binarizer是將連續型變數根據某個閥值，轉換成二元的分類變數。小於該閥值的轉換為0，大於該閥值的轉換為1.如下輸入...

連續變數離散化的原因

離散變數和連續變數

連續變數離散化的幾種方法

特徵的轉換 02 連續變數的離散化

相關推薦