woe分析 資料分析和資料探勘的具體方法

2021-10-14 05:12:04 字數 1403 閱讀 2937

資料的抽取要正確反應業務需求

資料抽樣:抽樣方法多種多樣,視具體場景使用。

分析資料的規模有哪些具體的要求

重點是考量目標變數所對應的目標事件的數量。訓練集的資料量大概應該佔到樣本總資料量的40%-70%。1000個以上。自變數一般控制在8-20個以上。

如何處理缺失值和異常值

缺失值的常見處理方法

異常值的判斷和處理:連續值和離散值的異常值的處理方式不盡相同。

異常值有時也有比較好的應用價值。

資料轉換

產生衍生變數

改變分布

分箱標準化

篩選有效的輸入變數

為什麼 結合業務經驗進行先行篩選

用線性相關性指標進行初步篩選

r平方

卡方檢驗

woe、iv、基尼係數

部分建模演算法自身的篩選功能

降維的方法

最後的準則

既要貫徹落實上述種種有效的篩選輸入變數的方法和原理,又要在資料探勘商業實戰中綜合考慮諸多環境因素和制約條件,並加以權衡和折中。

共線性問題

如何識別共線性

如何處理共線性 聚類

聚類的場景:

主要聚類演算法的分類:

注意事項:

擴充套件應用:

聚類分析在實際應用中的優勢和缺點:

聚類分析結果的評價體系和評價指標:

**響應(分類)模型

神經網路的應用優勢:

神經網路的缺點和注意事項:

決策樹常見演算法:chaid、cart、id3

應用優勢:

缺點和注意事項:

除此之外,還有邏輯回歸、多元線性回歸、過擬合的處理等技術

資料分析和資料探勘

什麼是資料分析與資料探勘 資料分析 對已知資料進行分析,然後提取一些有價值的資訊 比如 統計出平均數 標準差等資訊 資料探勘 對大量的資料進行分析挖掘,得到一些未知的,有價值的資訊等。比如從 的使用者或使用者行為資料中挖掘出使用者其潛在需求資訊,從而對 進行改善 已知到未知 關係 資料分析和資料探勘...

資料分析和資料探勘相關模組

numpy 一般使用 numpy mklpandas 資料分析和處理模組,能為複雜情形下的資料提供堅實的基礎分析功能scipy 支援數值計算,支援矩陣運算,提供高等數學處理 積分 傅利葉變換 微分方程求解matplotlib 資料成圖模組,解決資料視覺化statsmodels 注重資料統計建模分析的...

簡述資料探勘和資料分析的區別(二)

典型的例子就是比較神奇的神經網路挖掘技術,這個技術裡面有乙個隱蔽層,這個隱蔽層的存在的意義就是沒有人能在所有的情況下讀懂裡面的非線性函式是如何對自變數進行組合的。在實踐應用中,這種情況常會讓習慣統計分析公式的分析師或者業務人員感到困惑,這也確實影響了模型在實踐應用中的可理解性和可接受度。如果我們換種...