機器學習學習筆記（一）之資料集

一、學習階段可用的資料集：

1、kaggle**：

特點：大資料競賽平台/真實資料/資料量巨大

2、uci資料集**：

特點：收錄了500餘個資料集/覆蓋科學、生活、競技領域/資料量幾十萬

3、scikit-learn**：

特點：資料量較小/方便學習

二、scikit-learn工具介紹

安裝：pip install sklearn

三、scikit-learn包含的內容

四、 sklearn資料集

1、scikit-learn資料集api介紹 **

datasets.load_*()

獲取小規模資料集，資料報含在datasets裡

datasets.fetch_*(data_home=none)

2、sklearn小資料集名稱

數量類別3特徵

4樣本數量

150每個類別數量50

名稱數量

目標類別

5-50

特徵13

樣本數量

5063、sklearn大資料集

4、sklearn資料集的使用

sklearn資料集返回值介紹

from sklearn.datasets import load_iris
# 獲取鳶尾花資料集
iris = load_iris(
)print
('鳶尾花資料集的返回值：\n'
,iris)
# 返回值是乙個繼承自字典的bunch
print
('鳶尾花的特徵值：\n'
,iris[
'data'])
print
('鳶尾花的目標值：\n'
,iris.target)
print
('鳶尾花特徵的名字：\n'
,iris.feature_names)
print
('鳶尾花目標值的名字：\n'
,iris.target_names)
print
('鳶尾花的描述：\n'
,iris.descr)

五、資料集的劃分機器學習一般的資料集會劃分為兩個部分

劃分比例：

資料集劃分api：

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
defdatasets_demo()
:"""
對鳶尾花資料集的展示
:return: none
"""# 1.獲取鳶尾花資料集
iris = load_iris(
)print
('鳶尾花資料集的返回值：\n'
,iris)
# 返回值是乙個繼承自字典的bunch
print
('鳶尾花的特徵值：\n'
,iris[
'data'])
print
('鳶尾花的目標值：\n'
,iris.target)
print
('鳶尾花特徵的名字：\n'
,iris.feature_names)
print
('鳶尾花目標值的名字：\n'
,iris.target_names)
print
('鳶尾花的描述：\n'
,iris.descr)
# 2.對鳶尾花資料集進行分割
# 訓練集的特徵值x_train 測試集的特徵值 x_test 訓練集的目標值y_train 測試集的目標值y_test
x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=
0.2,random_state=22)
# test_size：測試集範圍
# 這裡的random_state就是為了保證程式每次執行都分割一樣的訓練集和測試集。否則，同樣的演算法模型在不同的訓練集和測試集上的效果不一樣。
print
('訓練集的特徵值：\n'
,x_train,x_train.shape)
return
none
if __name__ =
'__main__'
: datasets_demo(
)

機器學習資料集

ucl機器學習知識庫包括近300個不同大小和型別的資料集,可用於分類回歸聚類和推薦系統任務。資料集列表位於 amazon aws公開資料集包含的通常是大型資料集,可通過amazon s3訪問。這些資料集包括人類基因組專案 common crawl網頁語料庫維基百科資料和google boo...

機器學習之k NN（學習筆記一）

原理思想如果乙個樣本在特徵空間中的k個最相似的樣本中的大多數屬於某乙個類別，則該樣本也屬於這個類別。演算法過程 1 計算已知類別資料集裡面的點與當前點之間的距離 2 按照距離遞增的次序進行排序 3 選擇與當前點待分類點距離最小的k個點作為評判標準 4 確定前k個點中，各個點的數量，或是概率有多...

機器學習筆記資料集分割

在模型訓練之前，要首先劃分訓練集與測試集，如何對原始資料集進行訓練集與測試集的劃分？訓練集與測試集的比例各佔多少？如何保證各自內部標籤分布平衡都會影響模型訓練的最終效果。好在r和python中有現成的資料集分割函式，避免手動寫函式導致劃分比例不合理訓練集與測試集的樣本的結構與總體不均衡的問題。r語...

機器學習學習筆記（一）之資料集

機器學習資料集

機器學習之k NN（學習筆記一）

機器學習筆記 資料集分割

相關推薦

機器學習筆記資料集分割