資料探勘專案(一)

2021-09-11 18:49:56 字數 1752 閱讀 5030

第一次實踐資料探勘。虛心學習。

基於機器學習的資料分析模型的建立,主要分為以下幾步:資料獲取->資料預處理->模型選擇->資料統一化->模型建立->模型結果分析

首先要對資料進行評估,資料的大小來決定使用工具。

本資料為金融資料,目的為**貸款使用者是否會逾期。

匯入資料

import pandas as pd

import numpy as np

df = pd.read_csv('data.csv',encoding="gbk")

df.head()

刪除無關的特徵

data1 = df.drop(['trade_no', 'bank_card_no', 'source', 'unnamed: 0', 'id_name'], axis=1)

data1.info()

預設值處理(以下參考88080917**)

print(df.isnull().sum())

count=0

for i in range(85):

if df.isnull().sum()[i]>250:

count=count+1

print(count)

print(max(fd.isnull().sum()))

剔除,填充,合併

data1=data1.drop(['student_feature'], axis=1)

data1.dropna(thresh=70, inplace = true)

data_col=['loans_latest_time', 'latest_query_time', 'reg_preference_for_trad']

data2 = data1[data_col]

data3 = data1.drop(data_col, axis=1)

data3=data3.fillna(data3.mode())

reg_data=data2['reg_preference_for_trad']

data2.drop(['reg_preference_for_trad'], axis=1)

from sklearn import preprocessing

citydata = preprocessing.labelbinarizer().fit_transform(reg_data)

citydataframe = pd.dataframe(citydata, columns=["一線城市","三線城市","二線城市","其它城市","境外"])

data3.reset_index(drop=true, inplace=true)

data2.reset_index(drop=true, inplace=true)

citydataframe.reset_index(drop=true, inplace=true)

dataset = pd.concat([data2, citydataframe, data3], axis=1)

5.將資料集切分為訓練集與測試集

train, test = train_test_split(dataset, test_size=0.3, random_state=2018)

資料探勘專案(二)

特徵工程 2天 目標 對資料特徵進行衍生和進行特徵挑選。包括但不限於 特徵衍生,特徵挑選。分別用iv值和隨機森林等進行特徵選擇 以及你能想到特徵工程處理。特徵選擇 feature selection 也稱特徵子集選擇 feature subset selection fss 或屬性選擇 attrib...

資料探勘專案(五)

目標任務 模型調優 使用網格搜尋法對5個模型進行調優 調參時採用五折交叉驗證的方式 並進行模型評估,記得展示 的執行結果。網格搜尋是一種調參手段 窮舉搜尋 在所有候選的引數選擇中,通過迴圈遍歷,嘗試每一種可能性,表現最好的引數就是最終的結果。其原理就像是在陣列裡找最大值。為什麼叫網格搜尋?以有兩個引...

資料探勘 如何做資料探勘專案

筆者鼓勵致力於從事資料行業的去參加一些人工智慧,機器學習的培訓,然後有人說 其實很多企業不喜歡培訓出來的人,認為培訓不貼近實際,紙上談兵。我倒不這麼看,其實即使在企業內乾資料探勘的人,很多也出不了活,這個不僅僅涉及業務和技術,更是管理上的問題。任正非說,華為最後能留下來的財富只有兩樣 一是管理框架 ...