資料分析 鳶尾花資料集

2021-10-11 01:39:23 字數 2139 閱讀 2581

鳶尾花資料集

iris 鳶尾花資料集內包含 3 類分別為山鳶尾(iris-setosa)、變色鳶尾(iris-versicolor)和維吉尼亞鳶尾(iris-virginica),共 150 條記錄,每類各 50 個資料,每條記錄都有 4 項特徵:花萼長度、花萼寬度、花瓣長度、花瓣寬度。

以上四個特徵的單位都是厘公尺(cm)

1、如何匯入存在數字和文字的資料集。

2、求出鳶尾屬植物萼片長度的平均值、中位數和標準差。

3、建立一種標準化形式的鳶尾屬植物萼片長度,其值正好介於0和1之間,這樣最小值為0,最大值為1。

4、找到鳶尾屬植物萼片長度的第5和第95百分位數。

5、把iris_data資料集中的20個隨機位置修改為np.nan值。

6、在iris_data的sepallength中查詢缺失值的個數和位置。

7、篩選具有 sepallength(第1列)< 5.0 並且 petallength(第3列)> 1.5 的 iris_data行。

8、選擇沒有任何 nan 值的 iris_data行。

9、計算 iris_data 中sepallength(第1列)和petallength(第3列)之間的相關係數。

10、找出iris_data是否有任何缺失值。

11、在numpy陣列中將所有出現的nan替換為0。

12、找出鳶尾屬植物物種中的唯一值和唯一值出現的數量。

13、將 iris_data 的花瓣長度(第3列)以形成分類變數的形式顯示。定義:less than 3 -->『small』;3-5 --> 『medium』;』>=5 --> 『large』。

14、在 iris_data 中建立乙個新列,其中 volume 是(pi x petallength x sepallength ^ 2)/ 3 。

15、隨機抽鳶尾屬植物的種類,使得iris-setosa的數量是iris-versicolor和iris-virginica數量的兩倍。

16、根據 sepallength 列對資料集進行排序。

17、在鳶尾屬植物資料集中找到最常見的花瓣長度值。

18、在鳶尾花資料集的 petalwidth(第4列)中查詢第一次出現的值大於1.0的位置。

鳶尾花資料集

from sklearn import datasets iris datasets.load iris iris是乙個字典集keys iris.keys dict keys data target target names descr feature names data iris.data.sh...

鳶尾花 Iris 資料集

2.pandas庫基礎操作 3.資料視覺化 tf.keras.utils.get file fname,origin,cache dir 引數 說明fname origin 檔案的url位址 cache dir train url train path tf.keras.utils.get file...

邏輯回歸 鳶尾花資料集

import numpy as np import pandas as pd data pd.read csv iris.csv 去掉不需要的列 data.drop id axis 1,inplace true data.drop duplicates inplace true 實現對映操作 dat...