scikit learn資料集介紹及api使用

2021-10-20 07:13:39 字數 2371 閱讀 9285

load和fetch返回的資料型別datasets.base.bunch(字典格式)

from sklearn.datasets import load_iris,fetch_20newsgroups

news = fetch_20newsgrops() #大資料集獲取

print(news)

# 獲取鳶尾花資料集

iris = load_iris() #小資料集獲取

print("鳶尾花資料集的返回值:\n", iris)

# 返回值是乙個繼承自字典的bench

print("鳶尾花的特徵值:\n", iris["data"])

print("鳶尾花的目標值:\n", iris.target)

print("鳶尾花特徵的名字:\n", iris.feature_names)

print("鳶尾花目標值的名字:\n", iris.target_names)

print("鳶尾花的描述:\n", iris.descr)

seaborn 是基於 matplotlib 核心庫進行了更高階的 api 封裝。

安裝:pip3 install seaborn

seaborn.lmplot() 是乙個非常有用的方法,它會在繪製二維散點圖時,自動完成回歸擬合

%matplotlib inline  

# 內嵌繪圖

import seaborn as sns

import matplotlib.pyplot as plt

import pandas as pd

# 把資料轉換成dataframe的格式

iris_d = pd.dataframe(iris['data'], columns = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']) #列名

iris_d['species'] = iris.target #資料種類

def plot_iris(iris, col1, col2):

sns.lmplot(x = col1, y = col2, data = iris, hue = "species", fit_reg = false) #hue為目標值

plt.xlabel(col1)

plt.ylabel(col2)

plt.title('鳶尾花種類分布圖')

資料集劃分apireturn

from sklearn.datasets import load_iris

from sklearn.model_selection import train_test_split

# 1、獲取鳶尾花資料集

iris = load_iris()

# 對鳶尾花資料集進行分割

# 訓練集的特徵值x_train 測試集的特徵值x_test 訓練集的目標值y_train 測試集的目標值y_test

x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)

print("訓練集的特徵值是\n",x_train)

print("訓練集的目標值值是\n",y_train)

print("測試集的特徵值是\n",x_test)

print("測試集的目標值是\n",y_test)

print("訓練集的特徵值形狀是\n", x_train.shape)

# 隨機數種子

x_train1, x_test1, y_train1, y_test1 = train_test_split(iris.data, iris.target, test_size=0.2, random_state=6)

x_train2, x_test2, y_train2, y_test2 = train_test_split(iris.data, iris.target, random_state=6)

print("如果隨機數種子不一致:\n", x_train == x_train1) #值不同

print("如果隨機數種子一致:\n", x_train1 == x_train2) #值相同

Python中scikit learn資料轉換

coding utf 8 import sys import numpy from sklearn import metrics from sklearn.feature extraction.text import hashingvectorizer from sklearn.feature ex...

Django入門 查詢集QuerySet介紹

在文章 django入門 通過模型類查詢mysql資料庫基本操作中,我們知道函式all filter exclude order by 等的返回值都是queryset型別,對該型別的返回值可以繼續使用上述查詢函式。queryset型別具有一些特性 在使用返回值型別為queryset的函式進行查詢時,...

利用scikit learn實現資料歸一化

本文主要介紹scikit learn中的資料預處理之歸一化。import numpy as np from sklearn import preprocessing 定義array a np.array 10,2.3,13.7,56,108 print a 對array進行歸一化 normaliza...