機器學習學習筆記(一)之資料集

2021-10-24 09:26:30 字數 2429 閱讀 9390

一、學習階段可用的資料集:

1、kaggle**:

特點:大資料競賽平台/真實資料/資料量巨大

2、uci資料集**:

特點:收錄了500餘個資料集/覆蓋科學、生活、競技領域/資料量幾十萬

3、scikit-learn**:

特點:資料量較小/方便學習

二、scikit-learn工具介紹

安裝:pip install sklearn

三、scikit-learn包含的內容

四、 sklearn資料集

1、scikit-learn資料集api介紹 **

datasets.load_*()

獲取小規模資料集,資料報含在datasets裡

datasets.fetch_*(data_home=none)

2、sklearn小資料集 名稱

數量類別3特徵

4樣本數量

150每個類別數量50

名稱數量

目標類別

5-50

特徵13

樣本數量

5063、sklearn大資料集

4、sklearn資料集的使用

sklearn資料集返回值介紹

from sklearn.datasets import load_iris

# 獲取鳶尾花資料集

iris = load_iris(

)print

('鳶尾花資料集的返回值:\n'

,iris)

# 返回值是乙個繼承自字典的bunch

print

('鳶尾花的特徵值:\n'

,iris[

'data'])

print

('鳶尾花的目標值:\n'

,iris.target)

print

('鳶尾花特徵的名字:\n'

,iris.feature_names)

print

('鳶尾花目標值的名字:\n'

,iris.target_names)

print

('鳶尾花的描述:\n'

,iris.descr)

五、資料集的劃分機器學習一般的資料集會劃分為兩個部分

劃分比例:

資料集劃分api:

from sklearn.datasets import load_iris

from sklearn.model_selection import train_test_split

defdatasets_demo()

:"""

對鳶尾花資料集的展示

:return: none

"""# 1.獲取鳶尾花資料集

iris = load_iris(

)print

('鳶尾花資料集的返回值:\n'

,iris)

# 返回值是乙個繼承自字典的bunch

print

('鳶尾花的特徵值:\n'

,iris[

'data'])

print

('鳶尾花的目標值:\n'

,iris.target)

print

('鳶尾花特徵的名字:\n'

,iris.feature_names)

print

('鳶尾花目標值的名字:\n'

,iris.target_names)

print

('鳶尾花的描述:\n'

,iris.descr)

# 2.對鳶尾花資料集進行分割

# 訓練集的特徵值x_train 測試集的特徵值 x_test 訓練集的目標值y_train 測試集的目標值y_test

x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=

0.2,random_state=22)

# test_size:測試集範圍

# 這裡的random_state就是為了保證程式每次執行都分割一樣的訓練集和測試集。否則,同樣的演算法模型在不同的訓練集和測試集上的效果不一樣。

print

('訓練集的特徵值:\n'

,x_train,x_train.shape)

return

none

if __name__ =

'__main__'

: datasets_demo(

)

機器學習資料集

ucl機器學習知識庫 包括近300個不同大小和型別的資料集,可用於分類 回歸 聚類和推薦系統任務。資料集列表位於 amazon aws公開資料集 包含的通常是大型資料集,可通過amazon s3訪問。這些資料集包括人類基因組專案 common crawl網頁語料庫 維基百科資料和google boo...

機器學習之k NN(學習筆記一)

原理思想 如果乙個樣本在特徵空間中的k個最相似的樣本中的大多數屬於某乙個類別,則該樣本也屬於這個類別。演算法過程 1 計算已知類別資料集裡面的點與當前點之間的距離 2 按照距離遞增的次序進行排序 3 選擇與當前點 待分類點 距離最小的k個點作為評判標準 4 確定前k個點中,各個點的數量,或是概率有多...

機器學習筆記 資料集分割

在模型訓練之前,要首先劃分訓練集與測試集,如何對原始資料集進行訓練集與測試集的劃分?訓練集與測試集的比例各佔多少?如何保證各自內部標籤分布平衡都會影響模型訓練的最終效果。好在r和python中有現成的資料集分割函式,避免手動寫函式導致劃分比例不合理 訓練集與測試集的樣本的結構與總體不均衡的問題。r語...