機器學習處理離散資料 機器學習一 資料預處理

2021-10-18 10:55:28 字數 869 閱讀 6733

為了能更系統的整理到學的知識進行乙個整理,也作為乙個自我監督,接下來就把較為系統的知識點都整理到部落格上。相應的**也會同步到github上。

下面所有的**都是使用python寫的,資料預處理主要用到的是sklearn.preprocessing模組 [sklearn.apachecn.org/cn/0.19.0/m…]

目錄

在機器學習一的這部分,我主要說一下資料的預處理。

1.匯入標準庫

import numpy as npimport matplotlib.pyplot as plt import pandas as pd複製**
2.匯入資料集

iloc陣列中引數:逗號左邊表示行數,逗號右邊表示列數,冒號表示選擇所有行或者列

# import the datasetdataset = pd.read_csv('data.csv')x = dataset.iloc[:,:-1].valuesy = dataset.iloc[:,3].values複製**
3.缺失資料

一般處理資料缺失的方法包括平均數填充、中位數填充,眾數填充。在imputer類中的strategy的可選引數中可以進行選擇。imputer這個類主要用於缺失資料的處理 引數axis:

引數strategy: strategy : string, optional (default="mean") the imputation strategy.

博雅資料機器學習10

博雅資料機器學習10 貝葉斯定理 計算隊1獲勝的概率prob win 1 prob win 1 1 prob win 0 計算隊1取勝時隊0是東道主的概率 prob win 1 home 0 1 prob win 1 home 1 計算隊0取勝時隊0是東道主的概率 prob win 0 home 0...

博雅資料機器學習09

博雅資料機器學習09 k近鄰演算法 宣告儲存k個鄰居的index的列表 index list 遍歷每個測試樣本的與訓練集的舉例,item型別為dict for item in distances item的型別為dict,即 使用sorted函式對item按照distance進行公升序排列,並取前1...

博雅資料機器學習06

博雅資料機器學習06 線性回歸 from sklearn import linear model from numpy import mat,array,mean 根據x和y訓練模型並計算 值y pred x insurance.drop charges axis 1 y insurance cha...