資料準備 降低基數,連續變數分段

2021-07-24 18:57:35 字數 803 閱讀 7449

資料準備非常重要:

1.從不同的渠道收集資料;

2.清理資料中意外錯誤或被認為是極端值的取值;

3.生成衍生的變數(feature)。

在資料處理過程,需要進行的操作:

1>將相同含義的變數合併;

2>出現頻率下的類別被合併為乙個新的類別,並給予乙個合理的標識,如other。

3>合併變數的類別使得某些**力指標最大化。

下面是採用決策樹的方法,對於有12個類別的某個feature,首先把所有的看成乙個分組,然後找出最優的二元分割方法,具體見《信用風險評分卡研究》的p92。

還有其他的一些降低基數的指標。

連續變數必須分段,為了方便構建打分卡,兩種方法:等距分段和最優分段。

等距分段是指分段的區間是一樣的,比如客戶年齡以10歲為間隔分段。

最優分段是使得該變數的**能力指標得到優化,相當於名義變數降低基數的最優分群。

如下是採用決策樹的方法,先規定最小分段的規模,然後進行初始的等距分段(取值順序保持原始變數的順序),然後利用決策樹二分法,進行分組,知道組數達到設定的分組數量。

關於資料準備

在專案進入正式測試階段之前,有乙個環節就是測試資料準備。當時,面對專案複雜的業務規則,一下子還不知道這個測試資料如何入手,往往準備的很粗糙。緊接著就是緊張的測試工作。在測試過程中,原來不清晰的業務規則 很多業務的潛規則也一點一點的被挖出來 也終於顯山顯水了。隨著測試進一步進行,一系列的測試資料也因為...

weka資料準備

將matlab中的陣列資料儲存為weka使用的.arff格式的資料 1 先將matlab中的陣列資料儲存為.csv格式的資料 matlab命令 csvwrite filename matrixname 3 將.csv格式的資料轉換成.arff格式的資料 1 開啟weka gui chooser,在t...

關於資料準備

在專案進入正式測試階段之前,有乙個環節就是測試資料準備。當時,面對專案複雜的業務規則,一下子還不知道這個測試資料如何入手,往往準備的很粗糙。緊接著就是緊張的測試工作。在測試過程中,原來不清晰的業務規則 很多業務的潛規則也一點一點的被挖出來 也終於顯山顯水了。隨著測試進一步進行,一系列的測試資料也因為...