機器學習處理離散資料機器學習一資料預處理

為了能更系統的整理到學的知識進行乙個整理，也作為乙個自我監督，接下來就把較為系統的知識點都整理到部落格上。相應的**也會同步到github上。

下面所有的**都是使用python寫的，資料預處理主要用到的是sklearn.preprocessing模組 [sklearn.apachecn.org/cn/0.19.0/m…]

在機器學習一的這部分，我主要說一下資料的預處理。

1.匯入標準庫

import numpy as npimport matplotlib.pyplot as plt import pandas as pd複製**

2.匯入資料集

iloc陣列中引數：逗號左邊表示行數，逗號右邊表示列數，冒號表示選擇所有行或者列

# import the datasetdataset = pd.read_csv('data.csv')x = dataset.iloc[:,:-1].valuesy = dataset.iloc[:,3].values複製**

3.缺失資料

一般處理資料缺失的方法包括平均數填充、中位數填充，眾數填充。在imputer類中的strategy的可選引數中可以進行選擇。imputer這個類主要用於缺失資料的處理引數axis：

引數strategy： strategy : string, optional (default="mean") the imputation strategy.

博雅資料機器學習10

博雅資料機器學習10 貝葉斯定理計算隊1獲勝的概率prob win 1 prob win 1 1 prob win 0 計算隊1取勝時隊0是東道主的概率 prob win 1 home 0 1 prob win 1 home 1 計算隊0取勝時隊0是東道主的概率 prob win 0 home 0...

博雅資料機器學習09

博雅資料機器學習09 k近鄰演算法宣告儲存k個鄰居的index的列表 index list 遍歷每個測試樣本的與訓練集的舉例，item型別為dict for item in distances item的型別為dict，即使用sorted函式對item按照distance進行公升序排列,並取前1...

博雅資料機器學習06

博雅資料機器學習06 線性回歸 from sklearn import linear model from numpy import mat,array,mean 根據x和y訓練模型並計算值y pred x insurance.drop charges axis 1 y insurance cha...

機器學習處理離散資料 機器學習一 資料預處理

博雅資料機器學習10

博雅資料機器學習09

博雅資料機器學習06

相關推薦

機器學習處理離散資料機器學習一資料預處理