鳶尾花資料集基本用法

2021-10-10 14:55:43 字數 2386 閱讀 7108

iris鳶尾花資料集是乙個經典的資料集。

包含3類共150條記錄,每類各50項資料,每一條記錄都有四個體徵。

可以通過這四個特徵來**鳶尾花屬於哪乙個品種。

首先匯入資料集,用pandas讀入iris.csv資料集,讀取後的資料集型別是dataframe

import pandas as pd

iris = pd.read_csv("./data/iris.csv")

輸出資料集的描述性資訊

iris.info()
型別,下標範圍,列數,各列的一些資訊,列中資料的型別 

iris資料集中的各個列的描述性資訊

iris.describe()
計數,均值,標準差,最小值,1/4,1/2,3/4 分位數,最大值

1.filepath 可以是 絕對路徑/相對路徑 也可以使 url

如下面這個 http**可以直接得到乙個csv型別的檔案,那麼通過下面的這種讀法就可以讀取到這個網路上的檔案

tmp = pd.read_csv("")
sep,delimiter 都是設定分隔符的,csv檔案預設的分隔符為 逗號 。

2.header 用於設定 表頭 ,預設為 0 即 表中的第一行

3.names= 如果讀取的資料集沒有表頭,就可以自己設定表頭

注意這樣讀取的話,如果本身存在表頭,那麼本身存在的表頭就被當成了第一行資料

4.如果pd.read_csv() 時不進行 header,names的設定,那麼一切按照預設,即讀取時預設將資料集的第一行當做header表頭。

只設定header=k,就將第k行當做表頭開始讀取資料,[0,k-1]行就沒了

只設定names的取值,適用於沒有表頭的情況下,如果有表頭那麼表頭會被當做第一行資料

同時設定names= ,header=0,適合原來有表頭但現在需要對表頭進行替換的情況

iris1 = pd.read_csv("./data/iris.csv",sep=',',names=["one","two","three","four","five"],header=0 )

iris1.head()

5.dataframe的下標預設是從 0 1 2 3 4 開始 順序推的

如果想要將某一列作為下標 加  index_col 引數

6.如果我們只是需要資料集中的部分的列,可以只提取想要的部分

7.sep delimiter 分隔符的設定對 讀取的影響

預設情況下用的 utf-8 編碼模式

鳶尾花資料集

from sklearn import datasets iris datasets.load iris iris是乙個字典集keys iris.keys dict keys data target target names descr feature names data iris.data.sh...

鳶尾花 Iris 資料集

2.pandas庫基礎操作 3.資料視覺化 tf.keras.utils.get file fname,origin,cache dir 引數 說明fname origin 檔案的url位址 cache dir train url train path tf.keras.utils.get file...

邏輯回歸 鳶尾花資料集

import numpy as np import pandas as pd data pd.read csv iris.csv 去掉不需要的列 data.drop id axis 1,inplace true data.drop duplicates inplace true 實現對映操作 dat...