資料探勘讀書筆記 常見資料處理技巧

2021-09-08 17:06:17 字數 357 閱讀 5123

資料抽取要正確反映業務需求

資料抽樣

分析資料的規模有哪些具體要求

如果處理缺失值和異常值

資料轉換:生成衍生變數(指標);改善變數分布的轉換(取對數等);分箱轉換;資料標準化(min-max標準化:x* = (x-min)/(max-min));

篩選有效的輸入變數:根據業務先行篩選;根據相關性指標初步篩選(皮爾遜相關係數r);r平方(多元線性回歸分析方法)篩選;卡方檢驗確定自變數與目標變數之間有比較強的關聯性;iv和woe(通過woe的變化調整出最佳的分箱閾值,通過iv值或gini分數篩選出較高**價值的自變數);建模演算法自身的篩選功能(決策樹、回歸);

共線性問題的發現(相關係數、主成分分析等)與處理;

資料探勘 資料處理

最近學校開了資料建模課程,根據學習內容做個小結。2 探索性資料分析eda 目的 熟悉資料集,了解資料集,對資料集進行驗證來確定所獲得資料集可以用於接下來的機器學習或者深度學習使用。了解變數間的相互關係以及變數與 值之間的存在關係。引導資料科學從業者進行資料處理以及特徵工程的步驟,使資料集的結構和特徵...

Pandas和常見資料處理小模組

資料處理 其他pandas 確實很好用,但是網上的教程參差不齊,找到可以用的比較花時間,所以自己總結了一些會常常用到的。import pandas as pd 根據imagename 通過查詢 image 得到相應的cloth label列的資料 label train lable.loc trai...

資料探勘(資料處理基礎)

資料及資料型別 資料是資料庫儲存的基本物件,狹義的資料理解為數值,廣義的資料理解為記錄。資料的屬性 標稱 nominal 序數 ordinal 區間 interval 和比率。標稱的屬性 只提供足夠的資訊以區分物件,例如甲乙丙 序數屬性 提供足夠的資訊,區別物件的序,例如及格,不及格 區間屬性 其屬...