資料探勘專案（一）

第一次實踐資料探勘。虛心學習。

基於機器學習的資料分析模型的建立，主要分為以下幾步：資料獲取->資料預處理->模型選擇->資料統一化->模型建立->模型結果分析

首先要對資料進行評估，資料的大小來決定使用工具。

本資料為金融資料，目的為**貸款使用者是否會逾期。

匯入資料

import pandas as pd
import numpy as np
df = pd.read_csv('data.csv',encoding="gbk")
df.head()

刪除無關的特徵

data1 = df.drop(['trade_no', 'bank_card_no', 'source', 'unnamed: 0', 'id_name'], axis=1)
data1.info()

預設值處理(以下參考88080917**)

print(df.isnull().sum())
count=0
for i in range(85):
if df.isnull().sum()[i]>250:
count=count+1
print(count)
print(max(fd.isnull().sum()))

剔除，填充，合併

data1=data1.drop(['student_feature'], axis=1)
data1.dropna(thresh=70, inplace = true)
data_col=['loans_latest_time', 'latest_query_time', 'reg_preference_for_trad']
data2 = data1[data_col]
data3 = data1.drop(data_col, axis=1)
data3=data3.fillna(data3.mode())
reg_data=data2['reg_preference_for_trad']
data2.drop(['reg_preference_for_trad'], axis=1)
from sklearn import preprocessing
citydata = preprocessing.labelbinarizer().fit_transform(reg_data) 
citydataframe = pd.dataframe(citydata, columns=["一線城市","三線城市","二線城市","其它城市","境外"])
data3.reset_index(drop=true, inplace=true)
data2.reset_index(drop=true, inplace=true) 
citydataframe.reset_index(drop=true, inplace=true) 
dataset = pd.concat([data2, citydataframe, data3], axis=1)

5.將資料集切分為訓練集與測試集

train, test = train_test_split(dataset, test_size=0.3, random_state=2018)

資料探勘專案（二）

特徵工程 2天目標對資料特徵進行衍生和進行特徵挑選。包括但不限於特徵衍生，特徵挑選。分別用iv值和隨機森林等進行特徵選擇以及你能想到特徵工程處理。特徵選擇 feature selection 也稱特徵子集選擇 feature subset selection fss 或屬性選擇 attrib...

資料探勘專案（五）

目標任務模型調優使用網格搜尋法對5個模型進行調優調參時採用五折交叉驗證的方式並進行模型評估，記得展示的執行結果。網格搜尋是一種調參手段窮舉搜尋在所有候選的引數選擇中，通過迴圈遍歷，嘗試每一種可能性，表現最好的引數就是最終的結果。其原理就像是在陣列裡找最大值。為什麼叫網格搜尋？以有兩個引...

資料探勘如何做資料探勘專案

筆者鼓勵致力於從事資料行業的去參加一些人工智慧，機器學習的培訓，然後有人說其實很多企業不喜歡培訓出來的人，認為培訓不貼近實際，紙上談兵。我倒不這麼看，其實即使在企業內乾資料探勘的人，很多也出不了活，這個不僅僅涉及業務和技術，更是管理上的問題。任正非說，華為最後能留下來的財富只有兩樣一是管理框架 ...

資料探勘專案（一）

資料探勘專案（二）

資料探勘專案（五）

資料探勘 如何做資料探勘專案

相關推薦

資料探勘如何做資料探勘專案